Assessing the Ability of a Large Language Model to Score Free-Text Medical Student Clinical Notes: Quantitative Study.
評估大型語言模型對醫學生自由文本臨床筆記進行評分的能力：定量研究。 JMIR Med Educ 2024-08-09

這項研究評估了ChatGPT 3.5在評分一年級醫學生撰寫的臨床筆記的效果，並與標準化病人進行比較。研究涵蓋168名學生，結果顯示ChatGPT的錯誤評分率僅1.0%，而標準化病人則為7.2%。平均錯誤數方面，ChatGPT為12，標準化病人則高達85，且差異顯著（P=.002）。這項研究顯示，GPT模型在評分臨床筆記上具有潛力，未來可能在醫療教育中提供即時反饋，標誌著醫學教育的一大進步。 PubMed DOI

LLM-based automatic short answer grading in undergraduate medical education.
基於 LLM 的本科醫學教育自動短答案評分。 BMC Med Educ 2024-09-28

這項研究探討大型語言模型（LLMs）在醫學教育中自動短答案評分的應用，使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括：GPT-4的分數低於人類評估者，但假陽性率較低；Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性，且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱，LLM可能存在偏見風險，仍需人類監督。整體而言，LLM在醫學教育評估中具潛力，但人類參與仍不可或缺。 PubMed DOI

Fine-Tuning Large Language Models to Enhance Programmatic Assessment in Graduate Medical Education.
微調大型語言模型以增強研究生醫學教育中的程式性評估。 J Educ Perioper Med 2024-10-02

這項研究探討了訓練大型語言模型（LLMs）來根據美國住院醫師教育認證委員會（ACGME）的標準分類受訓者的反饋。研究發現，雖然複雜的模型未必能提高分類準確率，但較小的模型如BERT-mini在性能上與FastText相當，且在個人設備上部署時更具優勢，能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

Comparing Scoring Consistency of Large Language Models with Faculty for Formative Assessments in Medical Education.
比較大型語言模型與教師在醫學教育形成性評估中的評分一致性。 J Gen Intern Med 2024-10-14

這項研究探討了使用大型語言模型（LLM），特別是ChatGPT 3.5，來評估伊利諾伊大學醫學院臨床前醫學生的批判性評估作業。研究發現，ChatGPT與教師評分的協議率達67%，顯示出合理的一致性，且能有效減少教師評分時間五倍，潛在節省約150小時。總體而言，這項研究建議使用ChatGPT等LLM能有效協助醫學教育中的作業評估，減輕教師負擔。 PubMed DOI

Leveraging large language models to construct feedback from medical multiple-choice Questions.
利用大型語言模型構建醫學多選題的反饋。 Sci Rep 2024-11-13

這項研究探討如何利用大型語言模型（LLMs）生成內容為基礎的反饋，以提升Progress Test Medizin考試的反饋效果，超越單純的數字分數。研究比較了兩個受歡迎的LLM在生成相關見解上的表現，並調查醫療從業人員和教育工作者對LLM能力及其反饋實用性的看法。結果顯示兩者表現相似，其中一個付費的稍優，另一個則免費。參與者認為反饋相關，並願意未來使用LLM。研究結論指出，雖然LLM生成的反饋不完美，但仍可作為傳統數字反饋的有價值補充。 PubMed DOI

Large language models improve clinical decision making of medical students through patient simulation and structured feedback: a randomized controlled trial.
大型語言模型透過病人模擬和結構化反饋提升醫學生的臨床決策能力：一項隨機對照試驗。 BMC Med Educ 2024-11-28

這項研究探討如何利用大型語言模型（LLMs）來提升醫學生的臨床決策訓練，透過模擬病人互動進行。研究分為對照組和反饋組，反饋組除了模擬對話外，還獲得AI生成的表現反饋。共21名醫學生參與，使用臨床推理指標評估表現。結果顯示，反饋組經過訓練後表現顯著優於對照組，特別在情境創建和資訊獲取上。研究指出，AI模擬對話結合結構化反饋，能有效支持臨床決策訓練，提升學生的實務準備。 PubMed DOI

Developing and Evaluating Large Language Model-Generated Emergency Medicine Handoff Notes.
開發與評估大型語言模型生成的急診醫學交接筆記。 JAMA Netw Open 2024-12-03

這項研究探討大型語言模型（LLM）生成的急診醫學交接筆記，針對從急診轉入住院的病人進行。研究在紐約長老會/威爾康奈爾醫學中心進行，分析了1,600份病人紀錄。結果顯示，LLM生成的筆記在詞彙和細節上優於醫生撰寫的筆記，但在實用性和病人安全性方面略遜於醫生的評估。這強調了在臨床使用LLM時，醫生參與的重要性，並提供了評估病人安全的框架。 PubMed DOI

Evaluating large language models for criterion-based grading from agreement to consistency.
從一致性到一致性：評估大型語言模型在標準基礎評分中的應用。 NPJ Sci Learn 2024-12-31

這項研究探討大型語言模型（LLMs）在依據標準評分的有效性，以及提示工程的影響。透過使用既定的人類基準進行定量分析，結果顯示即使是免費的LLMs也能有效評分，顯示出對標準的深刻理解。這表明，對主題內容的理解比模型的複雜性更重要。研究結果顯示，LLMs在教育環境中提供可擴展的反饋具有很大的潛力。 PubMed DOI

Delving into the Practical Applications and Pitfalls of Large Language Models in Medical Education: Narrative Review.
探討大型語言模型於醫學教育中的實際應用與陷阱：敘述性回顧 Adv Med Educ Pract 2025-04-24

大型語言模型在醫學教育應用越來越普遍，不只幫助老師設計課程、製作教材，也能給予學生回饋，提升語言和寫作能力。這篇綜述分析實際案例，說明LLMs對師生的好處，並討論遇到的挑戰及解方。研究建議醫學教育應更廣泛運用LLMs，以提升學習成效和病人安全。 PubMed DOI

Performance of large language models on family medicine licensing exams.
大型語言模型在家庭醫學執照考試中的表現 Fam Pract 2025-06-09

這項研究發現，多款主流大型語言模型在以色列基層醫療執照考試中表現不錯，尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%，解釋也多半正確有邏輯，但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力，但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI

原始文章

站上相關主題文章列表