Large Language Models Take on Cardiothoracic Surgery: A Comparative Analysis of the Performance of Four Models on American Board of Thoracic Surgery Exam Questions in 2023.
大型語言模型在心胸外科的應用：2023年四個模型在美國胸外科醫學會考試問題上的表現比較分析。 Cureus 2024-08-22

這項研究評估了四個大型語言模型（LLMs）在美國胸外科醫學會的胸外科自我教育與自我評估（SESATS）XIII題庫上的表現。測試的模型包括GPT-3.5、GPT-4、Med-PaLM 2和Claude 2。結果顯示，GPT-4的正確回答比例達87.0%，明顯優於GPT-3.5的51.8%。GPT-4在各子專科的準確率介於70.0%到90.0%之間，顯示出LLMs在外科教育和訓練方面的潛力，對醫學教育和病人護理有美好的前景。 PubMed DOI

Comparing Vision-Capable Models, GPT-4 and Gemini, With GPT-3.5 on Taiwan's Pulmonologist Exam.
比較具視覺能力的模型 GPT-4 和 Gemini 與 GPT-3.5 在台灣肺科醫師考試中的表現。 Cureus 2024-08-26

這項研究評估了先進大型語言模型（LLMs）在醫學考試中的視覺能力，特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試（肺部與重症醫學）的表現，並以僅處理文本的GPT-3.5為基準。結果顯示，GPT-4的表現持續優於Gemini和GPT-3.5，經常超過60的及格門檻，接近人類考生的水準。相對而言，Gemini的表現較低，而GPT-3.5得分最低，顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI

Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination.
評估先進大型語言模型在醫學知識中的有效性：使用日本國家醫學考試的比較研究。 Int J Med Inform 2024-10-29

這項研究評估了先進語言模型（LLMs）在醫學知識的準確性，特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus，並使用日本國家醫學考試作為評估工具。研究發現，GPT-4o在整體準確率上達到89.2%，在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題，且在「消化內科與肝臟病學」的表現最差。研究顯示，出版數量與模型表現正相關，強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

Large language models (LLMs) in radiology exams for medical students: Performance and consequences.
放射科考試中大型語言模型（LLMs）對醫學生的影響與表現。 Rofo 2024-11-04

這項研究分析了大型語言模型（LLMs），特別是OpenAI的GPT-3.5和GPT-4，在醫學生放射學考試中的表現。使用151道選擇題，結果顯示GPT-3.5的正確率為67.6%，而GPT-4則達到88.1%（p<0.001），表現明顯優於前者。GPT-4在各類問題上都表現良好，顯示其在醫學教育中的潛力。不過，研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看，LLMs在放射學教育上有提升的可能性。 PubMed DOI

Large Language Models with Vision on Diagnostic Radiology Board Exam Style Questions.
具備視覺的大型語言模型在診斷放射學考試風格問題上的應用。 Acad Radiol 2024-12-04

這項研究評估了大型語言模型（LLMs）在回答放射科考試問題時的表現，特別是當問題包含影像時。研究選取了280個問題，測試了三個模型：GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet，使用多模態、僅影像和僅文字三種提示格式。結果顯示，GPT-4V和Gemini 1.5 Pro的正確回答率約54-57%，而Claude 3.5 Sonnet在僅文字（63%）和多模態（66%）的表現上明顯優於僅影像（48%）。整體來看，這些模型未能有效利用影像來提升表現，顯示出進一步研究的潛力。 PubMed DOI

Evaluating Bard Gemini Pro and GPT-4 Vision Against Student Performance in Medical Visual Question Answering: Comparative Case Study.
評估 Bard Gemini Pro 和 GPT-4 Vision 在醫學視覺問題回答中的學生表現：比較案例研究。 JMIR Form Res 2024-12-23

這項研究評估了大型語言模型（LLMs），特別是OpenAI的GPT-4 1106和Google的Bard Gemini Pro，在影像醫學問題上的表現。分析1,070個來自AMBOSS平台的問題後，發現GPT-4 1106的準確率為56.9%，高於Bard的44.6%。不過，GPT-4 1106未回答的問題比例較高，達16.1%。若只看已回答的問題，GPT-4 1106的準確率提升至67.8%。兩者在德語表現優於英語，學生的準確率達94.5%，顯著超越這兩個AI模型。研究顯示，這些LLMs在醫學教育中有潛力，但仍需優化以應對多語言環境的挑戰。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Unveiling GPT-4V's hidden challenges behind high accuracy on USMLE questions: Observational Study.
揭示 GPT-4V 在 USMLE 問題高準確率背後的隱藏挑戰：觀察性研究。 J Med Internet Res 2025-02-07

最近的研究顯示，GPT-4V在醫學影像的解讀上有不錯的潛力，尤其在美國醫學執照考試中表現優異，Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過，雖然正確答案的解釋質量接近人類專家，但錯誤答案的解釋常常不準確，顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰，需要多次提示才能給出準確解釋。因此，在將GPT-4V應用於臨床前，仍需進一步評估其影像解釋能力。 PubMed DOI

Comparitive performance of artificial intelligence-based large language models on the orthopedic in-training examination.
人工智慧大型語言模型在骨科訓練考試中的比較表現。 J Orthop Surg (Hong Kong) 2025-03-03

這項研究評估了三個大型語言模型（LLMs）—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試（OITE）中的表現。結果顯示，GPT-4的表現超過及格門檻，與高年級住院醫師相當，明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格，且在影像相關問題上，GPT-3.5表現顯著下降。整體來看，GPT-4在各類問題上展現出強大的能力，超越了考試的最低要求。 PubMed DOI

Accuracy and quality of ChatGPT-4o and Google Gemini performance on image-based neurosurgery board questions.
ChatGPT-4o 和 Google Gemini 在影像基礎神經外科考試問題上的準確性和質量。 Neurosurg Rev 2025-03-25

這項研究評估了兩個大型語言模型（LLMs），GPT-4o 和 Google Gemini，在神經外科考試影像問題上的表現。共分析379個問題，結果顯示GPT-4o的正確率為51.45%，明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出，且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高，但兩者在影像問題上的表現仍不及傳統考試，顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

原始文章

站上相關主題文章列表