Performance of GPT-4 with Vision on Text- and Image-based ACR Diagnostic Radiology In-Training Examination Questions.
GPT-4 with Vision 在基於文本和圖像的 ACR 診斷放射學訓練考試問題中的表現。 Radiology 2024-09-03

這項研究評估了具備視覺功能的GPT-4（GPT-4V）在放射科考試中的表現，涵蓋文字和影像問題。研究期間為2023年9月至2024年3月，分析了386道美國放射學會的退役問題。結果顯示，GPT-4V正確回答65.3%的問題，其中文字問題得分81.5%，而影像問題僅47.8%。研究還發現，思維鏈提示對文字問題的表現較佳，但影像問題的提示效果差異不大。總體來看，GPT-4V在文字問題上表現優異，但在影像解讀上則較為薄弱。 PubMed DOI

Revolution or risk?-Assessing the potential and challenges of GPT-4V in radiologic image interpretation.
革命還是風險？- 評估 GPT-4V 在放射影像解讀中的潛力與挑戰。 Eur Radiol 2024-10-18

這項研究評估了ChatGPT-4 Vision在解讀臨床影像（如X光、CT、MRI等）的表現。分析了206個影像研究，結果顯示提供臨床上下文能顯著提高診斷準確率，從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時，準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%，但GPT-4V仍虛構了258個發現，並錯誤識別了65個案例。總體來看，GPT-4V目前無法可靠解讀放射影像，需進一步改進以確保病人安全。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

An assessment of ChatGPT in error detection for thyroid ultrasound reports: A comparative study with ultrasound physicians.
對於甲狀腺超音波報告中錯誤檢測的 ChatGPT 評估：與超音波醫師的比較研究。 Digit Health 2025-03-17

這項研究評估了GPT-4o在識別ACR TIRADS超音波報告錯誤的有效性及其加速報告生成的能力。分析了福建醫科大學第二附屬醫院的200份甲狀腺超音波報告，結果顯示GPT-4o成功檢測到90%的錯誤，接近資深醫師的93%。在效率上，GPT-4o的審查速度明顯快於醫師，平均只需0.79小時，而醫師則需1.8到3.1小時。研究結果顯示，GPT-4o不僅在錯誤檢測上表現優異，還能顯著提升報告處理效率，對於改善診斷準確性及支持住院醫師非常有幫助。 PubMed DOI

Generative pre-trained transformer 4o (GPT-4o) in solving text-based multiple response questions for European Diploma in Radiology (EDiR): a comparative study with radiologists.
GPT-4o 在解決歐洲放射學文憑 (EDiR) 的文本多重回應問題中的應用：與放射科醫師的比較研究。 Insights Imaging 2025-03-22

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現，並與人類考生進行比較。2024年10月，42名考生與26名使用GPT-4o的醫學生比較，結果顯示GPT-4o平均得分82.1%，遠高於考生的49.4%（p < 0.0001）。GPT-4o在放射學各子專科的真陽性率較高，假陽性率較低，僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美，而考生則中等。調查顯示參與者普遍使用複製和粘貼功能，73%的人尋求澄清。總體而言，GPT-4o在低階問題上表現優於人類考生，顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI

Evaluating a large language model's accuracy in chest X-ray interpretation for acute thoracic conditions.
評估大型語言模型在急性胸部疾病胸部 X 光解讀中的準確性。 Am J Emerg Med 2025-04-02

這項研究探討了使用ChatGPT 4.0搭配「X-Ray Interpreter」來解讀急診胸部X光片。分析了1,400張來自NIH的影像，涵蓋七種病理類別。ChatGPT在識別正常X光片方面表現優異，敏感度達98.9%，特異度93.9%。對於肺炎和氣胸的診斷表現較好，但在肺不張和肺氣腫上則較差。總體來看，ChatGPT作為輔助診斷工具顯示潛力，但對於更細微的診斷仍需改進，未來可與專業影像識別模型整合以提升能力。 PubMed DOI

Extracting Pulmonary Embolism Diagnoses From Radiology Impressions Using GPT-4o: Large Language Model Evaluation Study.
使用 GPT-4o 從放射學印象中提取肺栓塞診斷：大型語言模型評估研究。 JMIR Med Inform 2025-04-09

肺栓塞（PE）是一種危險的病症，需迅速診斷以降低死亡率。手動從放射科報告中提取PE診斷非常耗時，因此本研究探討使用GPT-4o模型自動化提取。研究開發了兩種方法：微調的Clinical Longformer和基於GPT-4o的提取器。結果顯示，GPT-4o在敏感性和F1分數上均優於Clinical Longformer，並在實際應用中保持高準確度。這顯示GPT-4o能有效簡化臨床流程，提升PE診斷的效率，改善病患結果。 PubMed DOI

The Accuracy of ChatGPT-4o in Interpreting Chest and Abdominal X-Ray Images.
ChatGPT-4o 在解讀胸部與腹部 X 光影像的準確性 J Pers Med 2025-05-27

這項研究發現，ChatGPT-4o在判讀X光片時，整體正確率約69%，腹部X光片表現比胸部好。它對常見異常如肺水腫、腸阻塞較準確，但對氣胸、肋骨骨折較弱。雖然AI回覆都算安全，但目前準確率還不夠高，還需改進才能真正成為臨床輔助工具。 PubMed DOI

GPT-4 vs. Radiologists: who advances mediastinal tumor classification better across report quality levels? A cohort study.
GPT-4 vs. 放射科醫師：誰能在不同報告品質層級下更好地推進縱膈腫瘤分類？一項世代研究 Int J Surg 2025-08-11

這項研究發現，GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%，跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時，GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI

原始文章

站上相關主題文章列表