ChatGPT's diagnostic performance based on textual vs. visual information compared to radiologists' diagnostic performance in musculoskeletal radiology.
ChatGPT在肌肉骨骼放射學中基於文本與視覺資訊的診斷表現，與放射科醫師的診斷表現相比較。 Eur Radiol 2024-07-12

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示，基於GPT-4的ChatGPT準確率為43%，優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師，但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現，強調提供詳細影像描述以提高準確性。 PubMed DOI

Optimizing GPT-4 Turbo Diagnostic Accuracy in Neuroradiology through Prompt Engineering and Confidence Thresholds.
透過提示工程和信心閾值優化 GPT-4 Turbo 在神經放射學中的診斷準確性。 Diagnostics (Basel) 2024-07-27

這項研究分析了大型語言模型（LLMs），特別是GPT-4 Turbo，在神經放射學的應用，針對30-50%的高誤診率進行探討。透過分析751個案例，研究發現透過提示工程和設定90%的信心閾值，GPT-4 Turbo的診斷準確率從55.1%提升至72.9%。候選診斷的正確率達85.9%，誤診率降至14.1%。雖然這些方法顯著提高了準確性，但也限制了模型的處理案例數量。未來仍需進一步研究，以優化這些策略，確保在臨床應用中的準確性與實用性。 PubMed DOI

Performance of GPT-4 with Vision on Text- and Image-based ACR Diagnostic Radiology In-Training Examination Questions.
GPT-4 with Vision 在基於文本和圖像的 ACR 診斷放射學訓練考試問題中的表現。 Radiology 2024-09-03

這項研究評估了具備視覺功能的GPT-4（GPT-4V）在放射科考試中的表現，涵蓋文字和影像問題。研究期間為2023年9月至2024年3月，分析了386道美國放射學會的退役問題。結果顯示，GPT-4V正確回答65.3%的問題，其中文字問題得分81.5%，而影像問題僅47.8%。研究還發現，思維鏈提示對文字問題的表現較佳，但影像問題的提示效果差異不大。總體來看，GPT-4V在文字問題上表現優異，但在影像解讀上則較為薄弱。 PubMed DOI

Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

Unveiling GPT-4V's hidden challenges behind high accuracy on USMLE questions: Observational Study.
揭示 GPT-4V 在 USMLE 問題高準確率背後的隱藏挑戰：觀察性研究。 J Med Internet Res 2025-02-07

最近的研究顯示，GPT-4V在醫學影像的解讀上有不錯的潛力，尤其在美國醫學執照考試中表現優異，Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過，雖然正確答案的解釋質量接近人類專家，但錯誤答案的解釋常常不準確，顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰，需要多次提示才能給出準確解釋。因此，在將GPT-4V應用於臨床前，仍需進一步評估其影像解釋能力。 PubMed DOI

Integrated visual and text-based analysis of ophthalmology clinical cases using a large language model.
使用大型語言模型進行眼科臨床案例的整合視覺與文本分析。 Sci Rep 2025-02-10

最近生成式人工智慧的進展，特別是像GPT-4 V這樣的多模態模型，顯示出在分析視覺和文本數據方面的潛力，對醫療保健，尤其是眼科，可能帶來重大影響。本研究評估了GPT-4 V在診斷眼部疾病的能力，結果顯示提供臨床背景能顯著提升診斷準確性。沒有背景時，GPT-4 V的正確率為47.5%，有背景時提升至67.5%。這顯示GPT-4 V能有效整合視覺與文本信息，對改善眼科病患護理有潛力。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Diagnostic performance of multimodal large language models in radiological quiz cases: the effects of prompt engineering and input conditions.
多模態大型語言模型於放射學問答案例中的診斷表現：提示工程與輸入條件的影響 Ultrasonography 2025-04-16

這項研究比較三款多模態大型語言模型在解讀放射影像的表現，發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字，都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說，善用提示工程和豐富輸入資料，有助提升 LLMs 在放射科的應用效能。 PubMed DOI

Multimodal Performance of GPT-4 in Complex Ophthalmology Cases.
GPT-4 在複雜眼科病例中的多模態表現 J Pers Med 2025-04-25

這項研究發現，GPT-4在診斷複雜眼科病例時，如果只有圖片沒文字，準確率會明顯下降；但有圖片說明時，表現就會提升。整體來說，GPT-4的表現和部分眼科醫師差不多，但還不及最頂尖的專家。顯示它目前在眼科影像判讀上還有進步空間，但未來有潛力成為臨床輔助工具。 PubMed DOI

Comparison between multimodal foundation models and radiologists for the diagnosis of challenging neuroradiology cases with text and images.
多模態基礎模型與放射科醫師在結合文本與影像診斷複雜神經放射學病例之比較 Diagn Interv Imaging 2025-05-10

這項研究比較GPT-4o、Gemini 1.5 Pro兩款AI和神經放射科醫師在複雜病例診斷上的表現。結果發現，只有臨床文字時，AI表現較好；但只看影像或結合文字和影像時，醫師明顯勝出。醫師參考AI建議後，診斷更準。AI雖能辨識影像類型，但常漏掉重要影像細節。目前醫師在整合資訊診斷上還是比較強。 PubMed DOI

原始文章

站上相關主題文章列表