Evaluation of Large language model performance on the Multi-Specialty Recruitment Assessment (MSRA) exam.
大型語言模型在多專科招聘評估（MSRA）考試上的表現評估。 Comput Biol Med 2024-02-06

研究發現在醫學教育中使用大型語言模型（LLMs）回答多重選擇問題，Bing Chat效果最好，甚至超越人類。Llama 2表現較差，Google Bard和ChatGPT-3.5則接近人類水準。建議免費提供的LLMs在醫學考試中有潛力，特別是Bing Chat。研究也提到透過訓練可提升LLMs在醫學領域的應用。總結來說，這研究對LLMs在醫學教育和評估中的應用提供了有價值的見解。 PubMed DOI

Can large language models reason about medical questions?
大型語言模型能否推理醫學問題？ Patterns (N Y) 2024-03-16

研究發現大型語言模型（如GPT-3.5和Llama 2）在處理複雜醫學問題時表現出色。透過提示和專家註釋，它們展現出在推理和回憶專業知識方面的潛力。GPT-3.5利用提示技術，在醫學基準測試中表現優異。Llama 2也有競爭力，其中Llama 2 70B 通過了MedQA-USMLE基準測試。 PubMed DOI

Large language models for generating medical examinations: systematic review.
大型語言模型用於生成醫學檢查：系統性回顧。 BMC Med Educ 2024-04-01

這篇評論討論了使用大型語言模型（LLMs）製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效，但需注意部分問題不適合醫學考試，需修改。未來研究應解決這些限制，LLMs可作為撰寫醫學多重選擇題的工具，但應謹慎使用。 PubMed DOI

Comparing the Performance of Popular Large Language Models on the National Board of Medical Examiners Sample Questions.
比較流行的大型語言模型在國家醫學考試委員會樣本問題上的表現。 Cureus 2024-04-12

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現，結果發現GPT-4得分最高，達100%，Claude次之，接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力，呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

Large language models (LLMs) in radiology exams for medical students: Performance and consequences.
放射科考試中大型語言模型（LLMs）對醫學生的影響與表現。 Rofo 2024-11-04

這項研究分析了大型語言模型（LLMs），特別是OpenAI的GPT-3.5和GPT-4，在醫學生放射學考試中的表現。使用151道選擇題，結果顯示GPT-3.5的正確率為67.6%，而GPT-4則達到88.1%（p<0.001），表現明顯優於前者。GPT-4在各類問題上都表現良好，顯示其在醫學教育中的潛力。不過，研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看，LLMs在放射學教育上有提升的可能性。 PubMed DOI

Large Language Models in Worldwide Medical Exams: Platform Development and Comprehensive Analysis.
全球醫學考試中的大型語言模型：平台開發與綜合分析。 J Med Internet Res 2024-12-27

這項研究介紹了MedExamLLM，一個評估大型語言模型（LLMs）在全球醫學考試表現的平台。它彙整了193篇相關文章，涵蓋16個LLM及來自28國、15種語言的198個醫學考試，時間範圍從2009到2023年。結果顯示，美國考試數量最多，主要語言為英語，GPT系列，特別是GPT-4，表現最佳。該平台強調LLM能力在地理和語言上有顯著差異，並且是開源的，旨在促進人工智慧在醫學教育中的應用。未來研究應解決潛在偏見及非英語研究的排除問題。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

Evaluating the Performance of Large Language Models (LLMs) in Answering and Analysing the Chinese Dental Licensing Examination.
評估大型語言模型 (LLMs) 在回答和分析中國牙科執照考試中的表現。 Eur J Dent Educ 2025-01-31

這項研究評估了多種大型語言模型（LLMs）在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題，並在三種情境下測試七個高效能的LLMs。結果顯示，Doubao-pro 32k和Qwen2-72b的準確性最高，分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異，但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

Benchmarking LLM chatbots' oncological knowledge with the Turkish Society of Medical Oncology's annual board examination questions.
以土耳其醫學腫瘤學會年度考試題目為基準，評估大型語言模型聊天機器人的腫瘤學知識。 BMC Cancer 2025-02-05

這項研究評估了四個大型語言模型（LLMs）在腫瘤學知識的表現，使用土耳其醫學腫瘤學會的考試問題。測試的模型包括Claude 3.5 Sonnet、ChatGPT 4o、Llama-3和Gemini 1.5，共分析790道選擇題。Claude 3.5 Sonnet表現最佳，所有考試通過，平均得分77.6%；ChatGPT 4o通過七場考試，得分67.8%。Llama-3和Gemini 1.5表現較差，得分均低於50%。研究顯示，這些模型需定期更新，以保持腫瘤學教育的相關性。總體而言，先進的LLMs在該領域有潛力，但仍需持續改進。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

原始文章

站上相關主題文章列表