Evaluating Large Language Models for the National Premedical Exam in India: Comparative Analysis of GPT-3.5, GPT-4, and Bard.
評估大型語言模型在印度國家醫學考試中的應用：對GPT-3.5、GPT-4和Bard的比較分析。 JMIR Med Educ 2024-03-09

大型語言模型（LLMs）如GPT-3.5、GPT-4和Bard在教育領域有重要應用。研究指出，GPT-4在NEET-2023考試問題回答上表現優異，準確率高於GPT-3.5和Bard。透過交叉檢查回答可提升準確性，GPT-4是可靠選擇。這研究凸顯LLMs在教育中的潛力，為其在高風險考試中的應用設下新標竿。 PubMed DOI

Comparing the Performance of Popular Large Language Models on the National Board of Medical Examiners Sample Questions.
比較流行的大型語言模型在國家醫學考試委員會樣本問題上的表現。 Cureus 2024-04-12

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現，結果發現GPT-4得分最高，達100%，Claude次之，接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力，呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Performance of Language Models on the Family Medicine In-Training Exam.
家庭醫學在職考試中語言模型的表現。 Fam Med 2024-08-29

這項研究評估了三個大型語言模型（LLMs）在家庭醫學住院醫師訓練考試中的表現，使用了2022年的193道選擇題。結果顯示，ChatGPT 4.0 獲得167分（86.5%），標準化分數730，顯示出100%通過專科考試的機會。相比之下，ChatGPT 3.5 和 Google Bard 的得分較低，分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示，ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

Performance of Publicly Available Large Language Models on Internal Medicine Board-style Questions.
公開可用的大型語言模型在內科醫學考試風格問題上的表現。 PLOS Digit Health 2024-09-17

持續的研究正在評估大型語言模型（LLMs）在內科考試中的表現，特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現，並使用檢索增強生成的方法進行測試。結果顯示，GPT-4.0的得分介於77.5%到80.7%之間，優於其他模型及人類受試者，尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性，顯示這種方法在醫學領域的潛力。 PubMed DOI

Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination.
評估先進大型語言模型在醫學知識中的有效性：使用日本國家醫學考試的比較研究。 Int J Med Inform 2024-10-29

這項研究評估了先進語言模型（LLMs）在醫學知識的準確性，特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus，並使用日本國家醫學考試作為評估工具。研究發現，GPT-4o在整體準確率上達到89.2%，在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題，且在「消化內科與肝臟病學」的表現最差。研究顯示，出版數量與模型表現正相關，強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

Large language models (LLMs) in radiology exams for medical students: Performance and consequences.
放射科考試中大型語言模型（LLMs）對醫學生的影響與表現。 Rofo 2024-11-04

這項研究分析了大型語言模型（LLMs），特別是OpenAI的GPT-3.5和GPT-4，在醫學生放射學考試中的表現。使用151道選擇題，結果顯示GPT-3.5的正確率為67.6%，而GPT-4則達到88.1%（p<0.001），表現明顯優於前者。GPT-4在各類問題上都表現良好，顯示其在醫學教育中的潛力。不過，研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看，LLMs在放射學教育上有提升的可能性。 PubMed DOI

Performance of ChatGPT and Bard on the medical licensing examinations varies across different cultures: a comparison study.
ChatGPT 和 Bard 在醫學執照考試中的表現因文化差異而異：比較研究。 BMC Med Educ 2024-11-26

這項研究評估了四個大型語言模型（LLMs）在多項醫學執照考試中的表現，包括美國、英國、香港及國家醫學執照考試。結果顯示，GPT-4o在所有測試中表現最佳，USMLE Step 1準確率達91.5%，Step 2 CK為94.2%，Step 3為92.7%。相比之下，GPT-4的準確率稍低，而GPT-3.5和Google Bard則明顯較低。在其他考試中，GPT-4o同樣領先，顯示出各模型之間的準確率差異，特別是在NMLE中仍需改進。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

原始文章

站上相關主題文章列表