原始文章

這項研究探討大型語言模型(LLMs),如ChatGPT和Gemini,在體育生理課程中評分書面作業的效果。研究比較了這些AI模型與人類評分者在使用布魯姆分類法的評分準則下的準確性和可靠性。結果顯示,雖然LLMs有一定的評估能力,但仍未達到人類評分者的水準,人類之間的評分一致性較高。人類與LLM的評分相關性通常為中等到較差,顯示AI在教育評估中的輔助潛力,但也強調了AI技術和教育者學習策略需持續改進。 PubMed DOI


站上相關主題文章列表

這篇論文研究了ChatGPT對學習和評估的影響,尤其是在學術論文評估上。研究發現ChatGPT能提供高質量原創內容,但在一致性和引用方面有挑戰。建議重新思考高教評量方式,應對AI干擾,提出新的AI輔助評估框架,不僅考量知識,也包括能力和表現。 PubMed DOI

這項研究分析了三個大型語言模型(LLMs)—ChatGPT(4和3.5版)及Google Gemini—在回答美國牙周病學會的考試問題時的準確性,並與人類研究生的表現進行比較。結果顯示,ChatGPT-4的準確率達79.57%,表現最佳;Google Gemini的準確率介於70.65%到75.73%之間,優於ChatGPT-3.5,但仍低於三年級住院醫師。ChatGPT-3.5的表現最差,準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力,但也需進一步研究以克服其限制。 PubMed DOI

最近在自然語言處理和人工智慧的進展,使大型語言模型(LLMs)在自動化作文評分(AES)中應用更為廣泛,提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性,特別是評分的一致性及其與人類評審者的對齊程度。結果顯示,提示工程對LLMs的可靠性至關重要,且GPT-4的表現優於其他模型,尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者,以深入了解LLMs在教育中的影響。 PubMed DOI

大型語言模型(LLMs)在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現,並評估了一個新開發的評分標準。結果顯示,Gemini的表現最佳,且評分工具的可靠性高,觀察者間變異性低。研究強調不同情境下模型表現的差異,並指出在實施前需評估診斷模型的有效性,為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

這項研究評估了六個大型語言模型(LLM)的表現,並與生物醫學及健康資訊學課程學生的知識評估分數進行比較。研究涵蓋139名學生,包括研究生、繼續教育學生和醫學生,他們回答了多選題和期末考。結果顯示,這些LLM的得分介於學生的第50到75百分位之間,表現相當不錯。這引發了對高等教育中學生評估方法的思考,特別是在在線課程中,因為LLM的能力可能會挑戰傳統的評估方式。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫學教育中自動短答案評分的應用,使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括:GPT-4的分數低於人類評估者,但假陽性率較低;Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性,且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱,LLM可能存在偏見風險,仍需人類監督。整體而言,LLM在醫學教育評估中具潛力,但人類參與仍不可或缺。 PubMed DOI

這項研究探討了使用大型語言模型(LLM),特別是ChatGPT 3.5,來評估伊利諾伊大學醫學院臨床前醫學生的批判性評估作業。研究發現,ChatGPT與教師評分的協議率達67%,顯示出合理的一致性,且能有效減少教師評分時間五倍,潛在節省約150小時。總體而言,這項研究建議使用ChatGPT等LLM能有效協助醫學教育中的作業評估,減輕教師負擔。 PubMed DOI

最近大型語言模型(LLMs)如ChatGPT在教育領域的應用,帶來了機會與挑戰。研究探討了ChatGPT在運動學領域生成的教育題目質量,並優化提示語產出30個問題,經專家評估後選出15個進行調查。結果顯示這些題目的難度和區分指數中等,但整體表現略低於傳統的力概念測驗(FCI)。研究強調,雖然LLMs能生成高質量題目,但仍需人類監督與學生反饋,以確保評估的有效性。 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

這項研究評估了六個生成式人工智慧大型語言模型(LLMs)在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示,ChatGPT-4的準確率最高,達60.5%,其次是Copilot(42.0%)和ChatGPT-3.5(41.0%)。雖然這些模型尚未能完全取代解剖學教育者,但它們在醫學教育中仍具備實用價值。 PubMed DOI