原始文章

這項研究比較了傳統機器學習演算法和大型語言模型在評估學生解決物理問題時的效果。雖然大型語言模型在教育上有創新潛力,但也存在生成不準確資訊、缺乏可解釋性及資源需求高等限制。結果顯示,傳統機器學習演算法在這個情境中表現更佳,特別是在有標記數據的情況下,能有效補充大型語言模型。因此,研究人員在選擇方法時應考慮具體情境和可用資源。 PubMed DOI


站上相關主題文章列表

使用大型語言模型(LLMs)如GPT系列可提升醫學教育品質,但需注意演算法偏見、抄襲、錯誤資訊等挑戰。整合LLMs需謹慎,以確保教學效果。本文探討LLMs在醫學教育的機會與挑戰,提供未來有效運用人工智慧的建議。 PubMed DOI

製作醫學考題很費時,但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助,但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現,學生在兩種問題來源下表現沒有太大差異,但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

這項研究評估了六個大型語言模型(LLM)的表現,並與生物醫學及健康資訊學課程學生的知識評估分數進行比較。研究涵蓋139名學生,包括研究生、繼續教育學生和醫學生,他們回答了多選題和期末考。結果顯示,這些LLM的得分介於學生的第50到75百分位之間,表現相當不錯。這引發了對高等教育中學生評估方法的思考,特別是在在線課程中,因為LLM的能力可能會挑戰傳統的評估方式。 PubMed DOI

這項研究探討了訓練大型語言模型(LLMs)來根據美國住院醫師教育認證委員會(ACGME)的標準分類受訓者的反饋。研究發現,雖然複雜的模型未必能提高分類準確率,但較小的模型如BERT-mini在性能上與FastText相當,且在個人設備上部署時更具優勢,能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何應用於分析課堂對話,以評估教學品質和診斷教育需求。傳統質性分析方法耗時且需專業知識,研究旨在確認LLMs是否能簡化此過程。研究使用中學數學和中文課的數據,將專家手動編碼的結果與GPT-4生成的結果進行比較。結果顯示,GPT-4能顯著節省時間,且編碼一致性高,顯示LLMs在教學評估和教育改進上具潛力。 PubMed DOI

最近大型語言模型(LLMs)如ChatGPT在教育領域的應用,帶來了機會與挑戰。研究探討了ChatGPT在運動學領域生成的教育題目質量,並優化提示語產出30個問題,經專家評估後選出15個進行調查。結果顯示這些題目的難度和區分指數中等,但整體表現略低於傳統的力概念測驗(FCI)。研究強調,雖然LLMs能生成高質量題目,但仍需人類監督與學生反饋,以確保評估的有效性。 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

近年來,大型語言模型(LLMs)在教育領域的應用越來越普遍,然而創建個性化學習環境仍面臨挑戰。文章提到三大挑戰:首先是可解釋性,需增強對LLMs如何理解學習者的認識;其次是適應性,需開發技術提供個性化教學支持;最後是創作與評估,需建立基於LLM的教育代理。克服這些挑戰將有助於打造更符合學生需求的AI輔導員,進而提升學習成效。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Gemini,在體育生理課程中評分書面作業的效果。研究比較了這些AI模型與人類評分者在使用布魯姆分類法的評分準則下的準確性和可靠性。結果顯示,雖然LLMs有一定的評估能力,但仍未達到人類評分者的水準,人類之間的評分一致性較高。人類與LLM的評分相關性通常為中等到較差,顯示AI在教育評估中的輔助潛力,但也強調了AI技術和教育者學習策略需持續改進。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs),包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity,來推薦適合的統計測試。研究人員使用27個已發表文獻的案例,將這些模型的建議與人類專家的建議進行比較。結果顯示,所有模型的建議一致性超過75%,接受度超過95%。特別是ChatGPT3.5的符合度最高,達85.19%,而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試,但無法完全取代人類專業知識。 PubMed DOI