ChatGPT's diagnostic performance based on textual vs. visual information compared to radiologists' diagnostic performance in musculoskeletal radiology.
ChatGPT在肌肉骨骼放射學中基於文本與視覺資訊的診斷表現，與放射科醫師的診斷表現相比較。 Eur Radiol 2024-07-12

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示，基於GPT-4的ChatGPT準確率為43%，優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師，但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現，強調提供詳細影像描述以提高準確性。 PubMed DOI

Evaluating the Role of GPT-4 and GPT-4o in the Detectability of Chest Radiography Reports Requiring Further Assessment.
評估 GPT-4 和 GPT-4o 在需要進一步評估的胸部放射線報告可檢測性中的角色。 Cureus 2025-01-13

這項研究評估了GPT-4和GPT-4o在識別需進一步評估的胸部放射線報告的效果。研究分析了來自NIH的100個案例，結果顯示GPT-4o在敏感性、準確性和陰性預測值上均優於GPT-4，而GPT-4在特異性和陽性預測值上則表現更佳。總體來看，GPT-4o在臨床應用中顯示出良好的潛力。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

ChatGPT-4o's Performance in Brain Tumor Diagnosis and MRI Findings: A Comparative Analysis with Radiologists.
ChatGPT-4o 在腦腫瘤診斷和 MRI 影像中的表現：與放射科醫師的比較分析。 Acad Radiol 2025-02-09

這項研究評估了ChatGPT-4o在識別MRI影像及診斷腦腫瘤的表現，並與經驗豐富的放射科醫師進行比較。研究涵蓋46名腦腫瘤患者的術前MRI影像。結果顯示，ChatGPT-4o識別病變的準確率為95.7%，但在定位病變和區分腦外、腦內病變方面表現不佳。其診斷成功率僅為56.8%，遠低於放射科醫師的90.9-93.2%。雖然ChatGPT-4o在某些特徵識別上表現良好，但在診斷上仍需改進，未來有潛力成為放射科醫師的輔助工具。 PubMed DOI

Evaluating the performance of ChatGPT in patient consultation and image-based preliminary diagnosis in thyroid eye disease.
評估 ChatGPT 在甲狀腺眼病患者諮詢和影像基礎初步診斷中的表現。 Front Med (Lausanne) 2025-03-05

這項研究評估了ChatGPT-4o在提供甲狀腺眼病（TED）諮詢和初步診斷的表現，特別是在非英語環境中。研究比較了ChatGPT-4o、ChatGPT-4和一位經驗豐富的眼科教授的回應，重點在準確性、全面性、簡潔性和整體滿意度。結果顯示，ChatGPT-4o在準確性和結構化回應上優於其他兩者，並成功識別病理狀況，解讀CT影像的準確性也與教授相當。儘管如此，研究也指出了錯誤資訊和法律問題的潛在風險，需謹慎處理。 PubMed DOI

Comparing ChatGPT 4.0's Performance in Interpreting Thyroid Nodule Ultrasound Reports Using ACR-TI-RADS 2017: Analysis Across Different Levels of Ultrasound User Experience.
比較 ChatGPT 4.0 在解讀使用 ACR-TI-RADS 2017 的甲狀腺結節超音波報告中的表現：不同超音波使用者經驗水平的分析。 Diagnostics (Basel) 2025-03-13

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力，並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示，ChatGPT在回聲焦點的評估上與專家一致，但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT，顯示傳統醫學訓練的重要性。結論指出，ChatGPT可作為輔助診斷工具，但無法取代人類專業知識，並建議改善AI算法以增強其臨床實用性。 PubMed DOI

Comparison of the accuracy of GPT-4 and resident physicians in differentiating benign and malignant thyroid nodules.
GPT-4 與住院醫師在區分良性與惡性甲狀腺結節準確性的比較。 Front Artif Intell 2025-03-20

這項研究評估了GPT-4在超音波影像識別甲狀腺結節的表現，並與住院醫師進行比較。分析了1,145張影像，結果顯示GPT-4對惡性結節的正確識別率為58.07%，良性結節為66.86%；而住院醫師則分別為73.89%和74.66%。在統計上，GPT-4的準確性顯著低於醫師，尤其是對小於1公分的結節。總體來看，GPT-4在甲狀腺結節分類上有潛力，但仍需改進。 PubMed DOI

ChatGPT-4's Accuracy in Estimating Thyroid Nodule Features and Cancer Risk from Ultrasound Images.
ChatGPT-4 在從超聲影像估計甲狀腺結節特徵和癌症風險方面的準確性。 Endocr Pract 2025-03-26

這項研究評估了GPT-4和GPT-4o在根據TI-RADS指引識別甲狀腺結節特徵的表現，使用了202張超音波影像。結果顯示，GPT-4在大多數類別中具高特異性但低敏感性，對低風險結節的敏感性僅25%，而高風險結節的敏感性為75%。雖然在識別平滑邊緣方面表現較好，但在其他特徵上則不理想。整體來看，這些模型在臨床應用前仍需改進和驗證。 PubMed DOI

Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study.
運用大型語言模型於乳房影像報告與資料系統（BI-RADS）分級及惡性預測以提升乳房超音波診斷：回溯性研究 JMIR Med Inform 2025-06-11

這項回溯性研究發現，ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時，表現比資淺放射科醫師更好，和資深醫師差不多。它預測惡性腫瘤的準確度高（AUC 0.82，準確率80.63%，敏感度90.56%，特異度73.51%）。若把ChatGPT-4納入影像判讀流程，能進一步提升醫師診斷準確率，減少不同醫師間的判讀差異。 PubMed DOI

GPT-4 vs. Radiologists: who advances mediastinal tumor classification better across report quality levels? A cohort study.
GPT-4 vs. 放射科醫師：誰能在不同報告品質層級下更好地推進縱膈腫瘤分類？一項世代研究 Int J Surg 2025-08-11

這項研究發現，GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%，跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時，GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI

原始文章

站上相關主題文章列表