Evaluating the Role of GPT-4 and GPT-4o in the Detectability of Chest Radiography Reports Requiring Further Assessment.
評估 GPT-4 和 GPT-4o 在需要進一步評估的胸部放射線報告可檢測性中的角色。 Cureus 2025-01-13

這項研究評估了GPT-4和GPT-4o在識別需進一步評估的胸部放射線報告的效果。研究分析了來自NIH的100個案例，結果顯示GPT-4o在敏感性、準確性和陰性預測值上均優於GPT-4，而GPT-4在特異性和陽性預測值上則表現更佳。總體來看，GPT-4o在臨床應用中顯示出良好的潛力。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

ChatGPT-4o's Performance in Brain Tumor Diagnosis and MRI Findings: A Comparative Analysis with Radiologists.
ChatGPT-4o 在腦腫瘤診斷和 MRI 影像中的表現：與放射科醫師的比較分析。 Acad Radiol 2025-02-09

這項研究評估了ChatGPT-4o在識別MRI影像及診斷腦腫瘤的表現，並與經驗豐富的放射科醫師進行比較。研究涵蓋46名腦腫瘤患者的術前MRI影像。結果顯示，ChatGPT-4o識別病變的準確率為95.7%，但在定位病變和區分腦外、腦內病變方面表現不佳。其診斷成功率僅為56.8%，遠低於放射科醫師的90.9-93.2%。雖然ChatGPT-4o在某些特徵識別上表現良好，但在診斷上仍需改進，未來有潛力成為放射科醫師的輔助工具。 PubMed DOI

Comparison of the accuracy of GPT-4 and resident physicians in differentiating benign and malignant thyroid nodules.
GPT-4 與住院醫師在區分良性與惡性甲狀腺結節準確性的比較。 Front Artif Intell 2025-03-20

這項研究評估了GPT-4在超音波影像識別甲狀腺結節的表現，並與住院醫師進行比較。分析了1,145張影像，結果顯示GPT-4對惡性結節的正確識別率為58.07%，良性結節為66.86%；而住院醫師則分別為73.89%和74.66%。在統計上，GPT-4的準確性顯著低於醫師，尤其是對小於1公分的結節。總體來看，GPT-4在甲狀腺結節分類上有潛力，但仍需改進。 PubMed DOI

Generative pre-trained transformer 4o (GPT-4o) in solving text-based multiple response questions for European Diploma in Radiology (EDiR): a comparative study with radiologists.
GPT-4o 在解決歐洲放射學文憑 (EDiR) 的文本多重回應問題中的應用：與放射科醫師的比較研究。 Insights Imaging 2025-03-22

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現，並與人類考生進行比較。2024年10月，42名考生與26名使用GPT-4o的醫學生比較，結果顯示GPT-4o平均得分82.1%，遠高於考生的49.4%（p < 0.0001）。GPT-4o在放射學各子專科的真陽性率較高，假陽性率較低，僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美，而考生則中等。調查顯示參與者普遍使用複製和粘貼功能，73%的人尋求澄清。總體而言，GPT-4o在低階問題上表現優於人類考生，顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI

Large Language Models for Diagnosing Focal Liver Lesions From CT/MRI Reports: A Comparative Study With Radiologists.
利用大型語言模型從CT/MRI報告診斷肝臟局灶性病變：與放射科醫師的比較研究 Liver Int 2025-05-10

這項研究發現，ChatGPT-4o在診斷肝臟局部病灶時，表現大致和資淺放射科醫師差不多，但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程，也沒明顯提升醫師的診斷表現。總結來說，目前大型語言模型對診斷這類疾病的幫助有限，準確度還有待加強。 PubMed DOI

The Accuracy of ChatGPT-4o in Interpreting Chest and Abdominal X-Ray Images.
ChatGPT-4o 在解讀胸部與腹部 X 光影像的準確性 J Pers Med 2025-05-27

這項研究發現，ChatGPT-4o在判讀X光片時，整體正確率約69%，腹部X光片表現比胸部好。它對常見異常如肺水腫、腸阻塞較準確，但對氣胸、肋骨骨折較弱。雖然AI回覆都算安全，但目前準確率還不夠高，還需改進才能真正成為臨床輔助工具。 PubMed DOI

Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters.
ChatGPT-4.0 在分類多模態肌肉骨骼腫塊之診斷準確性的評估：與人工評分者之比較研究 Rofo 2025-06-03

研究發現，ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時，主要診斷正確率低於人類專家（44%比87%），但若加上次要診斷，差距縮小（71%比94%）。雖然準確度還不及專家，但因為速度快又隨時可用，未來有機會成為放射科的輔助工具。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study.
運用大型語言模型於乳房影像報告與資料系統（BI-RADS）分級及惡性預測以提升乳房超音波診斷：回溯性研究 JMIR Med Inform 2025-06-11

這項回溯性研究發現，ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時，表現比資淺放射科醫師更好，和資深醫師差不多。它預測惡性腫瘤的準確度高（AUC 0.82，準確率80.63%，敏感度90.56%，特異度73.51%）。若把ChatGPT-4納入影像判讀流程，能進一步提升醫師診斷準確率，減少不同醫師間的判讀差異。 PubMed DOI

原始文章

站上相關主題文章列表