Performance of large language models at the MRCS Part A: a tool for medical education?
大型語言模型在 MRCS Part A 考試的表現：醫學教育的工具？ Ann R Coll Surg Engl 2023-12-01

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀，回答更有深度。兩者一致性高，對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識，但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確，在醫療領域有重要價值需受到監督。 PubMed DOI

Large Language Models in Medical Education: Comparing ChatGPT- to Human-Generated Exam Questions.
醫學教育中的大型語言模型：比較 ChatGPT 與人類生成的考試問題。 Acad Med 2024-01-02

製作醫學考題很費時，但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助，但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現，學生在兩種問題來源下表現沒有太大差異，但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

Large language models for generating medical examinations: systematic review.
大型語言模型用於生成醫學檢查：系統性回顧。 BMC Med Educ 2024-04-01

這篇評論討論了使用大型語言模型（LLMs）製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效，但需注意部分問題不適合醫學考試，需修改。未來研究應解決這些限制，LLMs可作為撰寫醫學多重選擇題的工具，但應謹慎使用。 PubMed DOI

A systematic review of large language models and their implications in medical education.
大型語言模型在醫學教育中的影響：一個系統性回顧。 Med Educ 2024-04-19

使用大型語言模型（LLMs）在醫學教育可能有革新效果，解決資訊過載和時間不足等問題。研究指出LLMs對醫學生學習有正面影響，但也提到準確性和倫理挑戰。負責任地應用LLMs可增進學習體驗，但需注意準確性、技能培養和道德標準。持續評估和合作是整合LLMs在醫學教育中的關鍵。 PubMed DOI

Performance of Large Language Models on Medical Oncology Examination Questions.
大型語言模型在醫學腫瘤學考試問題上的表現。 JAMA Netw Open 2024-06-18

一項研究評估了大型語言模型（LLMs）在回答醫學腫瘤學考試問題時的準確性和安全性。最佳的LLM以高準確度回答問題，但錯誤引起了安全疑慮，這表明有必要開發和評估LLMs，以改善臨床醫學腫瘤學等高風險臨床環境中醫護人員的經驗和病人護理。 PubMed DOI

Large Language Models as Tools to Generate Radiology Board-Style Multiple-Choice Questions.
利用大型語言模型生成放射學委員會風格的多重選擇題。 Acad Radiol 2024-07-16

使用Llama 2和GPT-4創建放射學教育的多重選擇題，供放射科醫師評估。GPT-4在清晰度、相關性、難度、干擾項質量和答案準確性方面表現優異。這些先進的語言模型有助於提升放射學考試準備資料，擴大問題庫。 PubMed DOI

LLM-based automatic short answer grading in undergraduate medical education.
基於 LLM 的本科醫學教育自動短答案評分。 BMC Med Educ 2024-09-28

這項研究探討大型語言模型（LLMs）在醫學教育中自動短答案評分的應用，使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括：GPT-4的分數低於人類評估者，但假陽性率較低；Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性，且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱，LLM可能存在偏見風險，仍需人類監督。整體而言，LLM在醫學教育評估中具潛力，但人類參與仍不可或缺。 PubMed DOI

Fine-Tuning Large Language Models to Enhance Programmatic Assessment in Graduate Medical Education.
微調大型語言模型以增強研究生醫學教育中的程式性評估。 J Educ Perioper Med 2024-10-02

這項研究探討了訓練大型語言模型（LLMs）來根據美國住院醫師教育認證委員會（ACGME）的標準分類受訓者的反饋。研究發現，雖然複雜的模型未必能提高分類準確率，但較小的模型如BERT-mini在性能上與FastText相當，且在個人設備上部署時更具優勢，能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

A qualitative survey on perception of medical students on the use of large language models for educational purposes.
醫學生對於大型語言模型在教育用途上使用的看法之質性調查。 Adv Physiol Educ 2024-10-24

這項研究透過電話訪談，調查印度醫學生對大型語言模型（LLMs）在醫學教育中的看法。25名學生的回應經過分析後，整理出三個主要主題：使用情境、增強學習和LLMs的限制。學生們表示，LLMs幫助他們澄清複雜主題、尋找客製化答案、解決選擇題、創建簡化筆記及簡化作業。他們欣賞這些工具的易用性和省時優勢，但也擔心不準確性、可靠性和隱私問題。學生強調需要培訓，以有效整合LLMs進醫學教育。總體而言，LLMs有潛力提升醫學教育，但需解決挑戰以發揮其優勢。 PubMed DOI

Large language models (LLMs) in radiology exams for medical students: Performance and consequences.
放射科考試中大型語言模型（LLMs）對醫學生的影響與表現。 Rofo 2024-11-04

這項研究分析了大型語言模型（LLMs），特別是OpenAI的GPT-3.5和GPT-4，在醫學生放射學考試中的表現。使用151道選擇題，結果顯示GPT-3.5的正確率為67.6%，而GPT-4則達到88.1%（p<0.001），表現明顯優於前者。GPT-4在各類問題上都表現良好，顯示其在醫學教育中的潛力。不過，研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看，LLMs在放射學教育上有提升的可能性。 PubMed DOI

原始文章

站上相關主題文章列表