Revolution or risk?-Assessing the potential and challenges of GPT-4V in radiologic image interpretation.
革命還是風險？- 評估 GPT-4V 在放射影像解讀中的潛力與挑戰。 Eur Radiol 2024-10-18

這項研究評估了ChatGPT-4 Vision在解讀臨床影像（如X光、CT、MRI等）的表現。分析了206個影像研究，結果顯示提供臨床上下文能顯著提高診斷準確率，從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時，準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%，但GPT-4V仍虛構了258個發現，並錯誤識別了65個案例。總體來看，GPT-4V目前無法可靠解讀放射影像，需進一步改進以確保病人安全。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

Unveiling GPT-4V's hidden challenges behind high accuracy on USMLE questions: Observational Study.
揭示 GPT-4V 在 USMLE 問題高準確率背後的隱藏挑戰：觀察性研究。 J Med Internet Res 2025-02-07

最近的研究顯示，GPT-4V在醫學影像的解讀上有不錯的潛力，尤其在美國醫學執照考試中表現優異，Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過，雖然正確答案的解釋質量接近人類專家，但錯誤答案的解釋常常不準確，顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰，需要多次提示才能給出準確解釋。因此，在將GPT-4V應用於臨床前，仍需進一步評估其影像解釋能力。 PubMed DOI

Benchmarking Vision Capabilities of Large Language Models in Surgical Examination Questions.
大型語言模型在外科檢查問題中的視覺能力基準評估。 J Surg Educ 2025-02-09

最近的研究探討大型語言模型（LLMs）在臨床決策和考試問題回答的有效性，特別是視覺語言模型（VLMs）的引入。研究評估了GPT-4、Claude-3 Sonnet和Gemini-1.5在德國和美國醫學執照考試中的表現。結果顯示，所有LLMs在文本問題中均達及格，但只有GPT-4在圖像問題中超過及格，表現明顯優於其他模型。GPT-4在文本和圖像問題上也超越了醫學生的歷史表現，顯示其在外科決策和醫學教育中的潛在應用價值。 PubMed DOI

Textual Proficiency and Visual Deficiency: A Comparative Study of Large Language Models and Radiologists in MRI Artifact Detection and Correction.
文本能力與視覺缺陷：大型語言模型與放射科醫生在 MRI 伪影檢測與修正中的比較研究。 Acad Radiol 2025-02-12

這項研究評估大型語言模型（LLMs）在檢測和修正MRI伪影的表現，並與放射科醫生進行比較。研究分為三個階段： 1. 第一階段中，六個LLMs和五位放射科醫生回答42個文本問題，LLMs表現優於醫生，ChatGPT o1-preview得分最高。 2. 第二階段，放射科醫生評估100張含伪影的MRI影像，醫生的表現明顯優於LLMs，資深醫生準確率高。 3. 第三階段在1.5個月後重新評估，檢查回應一致性。結果顯示，LLMs在文本任務中表現佳，但在視覺解釋上仍有挑戰，建議作為教育工具或輔助系統使用。 PubMed DOI

[The use of large language models in medicine and in radiology in particular].
「大型語言模型在醫學中的應用，特別是在放射學中的應用。」 Radiologie (Heidelb) 2025-03-19

將大型語言模型（LLMs）如Claude AI整合進放射學，為報告增強、工作流程優化及臨床決策提供了新機會。Claude在生成結構化內容和識別放射學應用方面表現出色，但使用時需謹慎，因其效果依賴於使用者的批判性評估能力。解決與LLMs相關的倫理和實際挑戰，對維持技術與醫療專業人員的自主性至關重要。隨著生成式AI的發展，謹慎實施將有助於最大化臨床利益並降低風險，確保放射學的安全與有效使用。 PubMed DOI

Diagnostic performance of multimodal large language models in radiological quiz cases: the effects of prompt engineering and input conditions.
多模態大型語言模型於放射學問答案例中的診斷表現：提示工程與輸入條件的影響 Ultrasonography 2025-04-16

這項研究比較三款多模態大型語言模型在解讀放射影像的表現，發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字，都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說，善用提示工程和豐富輸入資料，有助提升 LLMs 在放射科的應用效能。 PubMed DOI

Evaluating the reference accuracy of large language models in radiology: a comparative study across subspecialties.
放射科大型語言模型參考文獻準確性的評估：跨次專科的比較研究 Diagn Interv Radiol 2025-05-12

這項研究發現，Claude 3.5 Sonnet 在產生放射科參考文獻時最準確，正確率高達 80.8%，捏造比例僅 3.1%，明顯勝過其他模型。相較之下，ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低，捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說，Claude 3.5 Sonnet 學術可靠度高，其他模型則有誤導風險，引用功能還需加強。 PubMed DOI

Comparative performance of large language models in structuring head CT radiology reports: multi-institutional validation study in Japan.
大型語言模型在結構化頭部電腦斷層放射報告的表現比較：日本多機構驗證研究 Jpn J Radiol 2025-05-14

這項研究比較了Claude、GPT和Gemini三種大型語言模型，從日文頭部CT報告中擷取顱內出血和顱骨骨折資訊的表現。三種模型表現都不錯，其中以Claude最準確。提示設計會影響模型表現，尤其是Gemini。常見錯誤多因報告內容模糊。整體來說，大型語言模型能有效結構化放射報告，但提示設計還需優化，也要在不同語言和實際情境下再測試。 PubMed DOI

原始文章

站上相關主題文章列表