Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Beyond traditional prognostics: integrating RAG-enhanced AtlasGPT and ChatGPT 4.0 into aneurysmal subarachnoid hemorrhage outcome prediction.
超越傳統預後：整合 RAG 增強的 AtlasGPT 和 ChatGPT 4.0 於動脈瘤性蛛網膜下腔出血預後預測。 Neurosurg Rev 2025-01-10

這項研究評估了AtlasGPT和ChatGPT 4.0在預測動脈瘤性蛛網膜下腔出血（aSAH）患者的準確性，並與傳統臨床評估量表比較。研究包含82名患者，結果顯示住院死亡率為22%，34.1%需進行減壓性半顱切除手術。出院時28%患者有良好結果，六個月後提升至46.9%。AtlasGPT在預測手術需求方面表現最佳（AUC 0.80），而WFNS量表在長期功能預測上最為準確（AUC 0.76）。研究建議結合AI模型與傳統量表可提升預測準確性。 PubMed DOI

Detection of Intracranial Hemorrhage from Computed Tomography Images: Diagnostic Role and Efficacy of ChatGPT-4o.
從電腦斷層掃描影像檢測顱內出血：ChatGPT-4o 的診斷角色與效能。 Diagnostics (Basel) 2025-01-25

本研究探討AI模型ChatGPT-4 Omni在非對比電腦斷層掃描影像中檢測顱內出血的有效性。分析240個案例後，發現該模型在識別影像模式上達到100%準確率，但在ICH檢測的準確率為68.3%。敏感性為79.2%，特異性57.5%。在第二次評估中，準確率提升至73.3%。雖然模型在識別影像模式和檢測ICH方面有潛力，但在出血定位和分類上仍有不足，建議進一步訓練以提升其醫療應用表現。 PubMed DOI

Evaluation of Advanced Artificial Intelligence Algorithms' Diagnostic Efficacy in Acute Ischemic Stroke: A Comparative Analysis of ChatGPT-4o and Claude 3.5 Sonnet Models.
急性缺血性中風中先進人工智慧演算法診斷效能的評估：ChatGPT-4o 與 Claude 3.5 Sonnet 模型的比較分析。 J Clin Med 2025-01-25

本研究評估了兩種AI模型（ChatGPT-4o和Claude 3.5 Sonnet）在檢測急性缺血性中風（AIS）方面的表現。分析了110例擴散加權影像（DWI），結果顯示Claude 3.5 Sonnet在靈敏度和特異性上均優於ChatGPT-4o，特別是在AIS的定位準確性上。雖然Claude 3.5 Sonnet的表現較佳，但兩者在準確性上仍有顯著限制，顯示出AI在臨床應用前需進一步發展。這強調了AI在放射診斷中的潛力與現階段的不足。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

ChatGPT-4o's Performance in Brain Tumor Diagnosis and MRI Findings: A Comparative Analysis with Radiologists.
ChatGPT-4o 在腦腫瘤診斷和 MRI 影像中的表現：與放射科醫師的比較分析。 Acad Radiol 2025-02-09

這項研究評估了ChatGPT-4o在識別MRI影像及診斷腦腫瘤的表現，並與經驗豐富的放射科醫師進行比較。研究涵蓋46名腦腫瘤患者的術前MRI影像。結果顯示，ChatGPT-4o識別病變的準確率為95.7%，但在定位病變和區分腦外、腦內病變方面表現不佳。其診斷成功率僅為56.8%，遠低於放射科醫師的90.9-93.2%。雖然ChatGPT-4o在某些特徵識別上表現良好，但在診斷上仍需改進，未來有潛力成為放射科醫師的輔助工具。 PubMed DOI

Comparing ChatGPT 4.0's Performance in Interpreting Thyroid Nodule Ultrasound Reports Using ACR-TI-RADS 2017: Analysis Across Different Levels of Ultrasound User Experience.
比較 ChatGPT 4.0 在解讀使用 ACR-TI-RADS 2017 的甲狀腺結節超音波報告中的表現：不同超音波使用者經驗水平的分析。 Diagnostics (Basel) 2025-03-13

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力，並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示，ChatGPT在回聲焦點的評估上與專家一致，但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT，顯示傳統醫學訓練的重要性。結論指出，ChatGPT可作為輔助診斷工具，但無法取代人類專業知識，並建議改善AI算法以增強其臨床實用性。 PubMed DOI

Chat-GPT in triage: Still far from surpassing human expertise - An observational study.
Chat-GPT 在分診中的應用：仍然遠未超越人類專業知識 - 一項觀察性研究。 Am J Emerg Med 2025-03-22

這項研究評估了ChatGPT 4.0在急診部門進行病人分診的效果，並與人類分診人員進行比較。分析了2,658名病人的數據，結果顯示AI與人類的分診協議程度較低（kappa = 0.125）。在人類分診預測30天死亡率和生命救援需求方面，表現明顯優於AI（ROC分別為0.88對0.70及0.98對0.87）。這顯示雖然AI有潛力，但在急診分診中仍不如人類可靠，特別是對高風險病人的評估。 PubMed DOI

Validity of ChatGPT in Assisting Diagnosis of Periventricular-Intraventricular Hemorrhage via Cranial Ultrasound Imaging in Very Preterm Infants.
ChatGPT 協助極早產兒經顱超音波影像診斷腦室周圍-腦室內出血的有效性 Cureus 2025-05-16

這項研究發現，ChatGPT-4o在判讀極早產兒腦部超音波、診斷腦室周圍-腦室內出血（PV-IVH）時，正確率達75%，非PV-IVH則有84.2%，和小兒放射科醫師的診斷有中度一致。顯示ChatGPT-4o有機會協助資源不足地區做早期篩檢，但還需要更多研究來驗證效果。 PubMed DOI

Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study.
運用大型語言模型於乳房影像報告與資料系統（BI-RADS）分級及惡性預測以提升乳房超音波診斷：回溯性研究 JMIR Med Inform 2025-06-11

這項回溯性研究發現，ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時，表現比資淺放射科醫師更好，和資深醫師差不多。它預測惡性腫瘤的準確度高（AUC 0.82，準確率80.63%，敏感度90.56%，特異度73.51%）。若把ChatGPT-4納入影像判讀流程，能進一步提升醫師診斷準確率，減少不同醫師間的判讀差異。 PubMed DOI

原始文章

站上相關主題文章列表