Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Impact of Multimodal Prompt Elements on Diagnostic Performance of GPT-4V in Challenging Brain MRI Cases.
多模態提示元素對於 GPT-4V 在挑戰性腦部 MRI 案例診斷表現的影響。 Radiology 2025-01-21

這項研究探討了不同的多模態輸入如何影響OpenAI的GPT-4視覺版（GPT-4V）在腦部MRI診斷的表現。研究選取60個具有驗證診斷的腦部MRI案例，根據影像、註解、病史和影像描述四個元素創建七個提示組。結果顯示，四個元素的組合達到最高診斷準確率69%。影像描述對準確性影響顯著，而僅依賴影像則導致低準確率。總結來說，文字描述是提升診斷表現的關鍵，病史也有助益。 PubMed DOI

Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

Multimodal large language models address clinical queries in laryngeal cancer surgery: a comparative evaluation of image interpretation across different models.
多模態大型語言模型在喉癌手術中解決臨床問題：不同模型之間影像解讀的比較評估。 Int J Surg 2025-01-27

這項研究探討六種多模態大型語言模型（MLLMs）在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像，提出1084個臨床問題來評估模型表現，並由兩位醫師獨立評估。結果顯示，Claude 3.5 Sonnet的準確率最高，達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯，最佳商業模型的表現比其他模型高出19個百分點。研究指出，雖然MLLMs在手術決策支持上有潛力，但仍需針對特定需求進行開發，並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

Cross-Institutional Evaluation of Large Language Models for Radiology Diagnosis Extraction: A Prompt-Engineering Perspective.
跨機構評估大型語言模型於放射診斷萃取之表現：以提示工程觀點分析 J Imaging Inform Med 2025-05-09

這項研究用標準化、針對人類優化的提示語，讓大型語言模型標註六家醫院的放射科報告，結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語，LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

Comparison between multimodal foundation models and radiologists for the diagnosis of challenging neuroradiology cases with text and images.
多模態基礎模型與放射科醫師在結合文本與影像診斷複雜神經放射學病例之比較 Diagn Interv Imaging 2025-05-10

這項研究比較GPT-4o、Gemini 1.5 Pro兩款AI和神經放射科醫師在複雜病例診斷上的表現。結果發現，只有臨床文字時，AI表現較好；但只看影像或結合文字和影像時，醫師明顯勝出。醫師參考AI建議後，診斷更準。AI雖能辨識影像類型，但常漏掉重要影像細節。目前醫師在整合資訊診斷上還是比較強。 PubMed DOI

Evaluating the reference accuracy of large language models in radiology: a comparative study across subspecialties.
放射科大型語言模型參考文獻準確性的評估：跨次專科的比較研究 Diagn Interv Radiol 2025-05-12

這項研究發現，Claude 3.5 Sonnet 在產生放射科參考文獻時最準確，正確率高達 80.8%，捏造比例僅 3.1%，明顯勝過其他模型。相較之下，ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低，捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說，Claude 3.5 Sonnet 學術可靠度高，其他模型則有誤導風險，引用功能還需加強。 PubMed DOI

Comparative performance of large language models in structuring head CT radiology reports: multi-institutional validation study in Japan.
大型語言模型在結構化頭部電腦斷層放射報告的表現比較：日本多機構驗證研究 Jpn J Radiol 2025-05-14

這項研究比較了Claude、GPT和Gemini三種大型語言模型，從日文頭部CT報告中擷取顱內出血和顱骨骨折資訊的表現。三種模型表現都不錯，其中以Claude最準確。提示設計會影響模型表現，尤其是Gemini。常見錯誤多因報告內容模糊。整體來說，大型語言模型能有效結構化放射報告，但提示設計還需優化，也要在不同語言和實際情境下再測試。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

原始文章

站上相關主題文章列表