ChatGPT's diagnostic performance based on textual vs. visual information compared to radiologists' diagnostic performance in musculoskeletal radiology.
ChatGPT在肌肉骨骼放射學中基於文本與視覺資訊的診斷表現，與放射科醫師的診斷表現相比較。 Eur Radiol 2024-07-12

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示，基於GPT-4的ChatGPT準確率為43%，優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師，但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現，強調提供詳細影像描述以提高準確性。 PubMed DOI

Performance of GPT-4 with Vision on Text- and Image-based ACR Diagnostic Radiology In-Training Examination Questions.
GPT-4 with Vision 在基於文本和圖像的 ACR 診斷放射學訓練考試問題中的表現。 Radiology 2024-09-03

這項研究評估了具備視覺功能的GPT-4（GPT-4V）在放射科考試中的表現，涵蓋文字和影像問題。研究期間為2023年9月至2024年3月，分析了386道美國放射學會的退役問題。結果顯示，GPT-4V正確回答65.3%的問題，其中文字問題得分81.5%，而影像問題僅47.8%。研究還發現，思維鏈提示對文字問題的表現較佳，但影像問題的提示效果差異不大。總體來看，GPT-4V在文字問題上表現優異，但在影像解讀上則較為薄弱。 PubMed DOI

Evaluating the Role of GPT-4 and GPT-4o in the Detectability of Chest Radiography Reports Requiring Further Assessment.
評估 GPT-4 和 GPT-4o 在需要進一步評估的胸部放射線報告可檢測性中的角色。 Cureus 2025-01-13

這項研究評估了GPT-4和GPT-4o在識別需進一步評估的胸部放射線報告的效果。研究分析了來自NIH的100個案例，結果顯示GPT-4o在敏感性、準確性和陰性預測值上均優於GPT-4，而GPT-4在特異性和陽性預測值上則表現更佳。總體來看，GPT-4o在臨床應用中顯示出良好的潛力。 PubMed DOI

Can ChatGPT4-vision identify radiologic progression of multiple sclerosis on brain MRI?
ChatGPT4-vision 能夠識別腦部 MRI 上多發性硬化症的放射學進展嗎？ Eur Radiol Exp 2025-01-15

這項研究評估了GPT-4 Vision (GPT4V)在識別多發性硬化症 (MS) MRI掃描的表現，並與U-Net和Vision Transformer (ViT)進行比較。研究分析了170名MS患者的496個MRI影像。結果顯示，U-Net和ViT的準確率均為94%，而GPT4V為85%。雖然GPT4V在可及性和易用性上有潛力，但由於錯誤分類和過於謹慎，尚不適合臨床應用。研究強調在醫療AI工具使用上需謹慎，特別是對於非專業使用者。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

Unveiling GPT-4V's hidden challenges behind high accuracy on USMLE questions: Observational Study.
揭示 GPT-4V 在 USMLE 問題高準確率背後的隱藏挑戰：觀察性研究。 J Med Internet Res 2025-02-07

最近的研究顯示，GPT-4V在醫學影像的解讀上有不錯的潛力，尤其在美國醫學執照考試中表現優異，Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過，雖然正確答案的解釋質量接近人類專家，但錯誤答案的解釋常常不準確，顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰，需要多次提示才能給出準確解釋。因此，在將GPT-4V應用於臨床前，仍需進一步評估其影像解釋能力。 PubMed DOI

ChatGPT-4o's Performance in Brain Tumor Diagnosis and MRI Findings: A Comparative Analysis with Radiologists.
ChatGPT-4o 在腦腫瘤診斷和 MRI 影像中的表現：與放射科醫師的比較分析。 Acad Radiol 2025-02-09

這項研究評估了ChatGPT-4o在識別MRI影像及診斷腦腫瘤的表現，並與經驗豐富的放射科醫師進行比較。研究涵蓋46名腦腫瘤患者的術前MRI影像。結果顯示，ChatGPT-4o識別病變的準確率為95.7%，但在定位病變和區分腦外、腦內病變方面表現不佳。其診斷成功率僅為56.8%，遠低於放射科醫師的90.9-93.2%。雖然ChatGPT-4o在某些特徵識別上表現良好，但在診斷上仍需改進，未來有潛力成為放射科醫師的輔助工具。 PubMed DOI

A preliminary investigation into the potential, pitfalls, and limitations of large language models for mammography interpretation.
大型語言模型在乳房X光檢查解讀中的潛力、陷阱與限制的初步研究。 Discov Oncol 2025-02-24

這項研究評估了GPT-4在解讀乳房X光影像的表現，使用了120張影像，分為有發現和無發現兩類。GPT-4的正確識別率為53.3%，在微鈣化和腫塊的識別上，敏感度為50.0%，特異度為37.5%。研究顯示出許多假陽性和假陰性，並出現幻覺現象，顯示模型的局限性。這強調了在乳房X光檢查中使用大型語言模型的潛力與風險，呼籲對醫療AI工具進行專門訓練和驗證，以確保其臨床可靠性與安全性。 PubMed DOI

The Accuracy of ChatGPT-4o in Interpreting Chest and Abdominal X-Ray Images.
ChatGPT-4o 在解讀胸部與腹部 X 光影像的準確性 J Pers Med 2025-05-27

這項研究發現，ChatGPT-4o在判讀X光片時，整體正確率約69%，腹部X光片表現比胸部好。它對常見異常如肺水腫、腸阻塞較準確，但對氣胸、肋骨骨折較弱。雖然AI回覆都算安全，但目前準確率還不夠高，還需改進才能真正成為臨床輔助工具。 PubMed DOI

Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters.
ChatGPT-4.0 在分類多模態肌肉骨骼腫塊之診斷準確性的評估：與人工評分者之比較研究 Rofo 2025-06-03

研究發現，ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時，主要診斷正確率低於人類專家（44%比87%），但若加上次要診斷，差距縮小（71%比94%）。雖然準確度還不及專家，但因為速度快又隨時可用，未來有機會成為放射科的輔助工具。 PubMed DOI

原始文章

站上相關主題文章列表