ChatGPT's diagnostic performance based on textual vs. visual information compared to radiologists' diagnostic performance in musculoskeletal radiology.
ChatGPT在肌肉骨骼放射學中基於文本與視覺資訊的診斷表現，與放射科醫師的診斷表現相比較。 Eur Radiol 2024-07-12

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示，基於GPT-4的ChatGPT準確率為43%，優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師，但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現，強調提供詳細影像描述以提高準確性。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

ChatGPT4's diagnostic accuracy in inpatient neurology: A retrospective cohort study.
住院神經科中 ChatGPT4 的診斷準確性：一項回顧性隊列研究。 Heliyon 2025-01-06

這項研究評估了ChatGPT-4在住院神經科的診斷準確性，並與顧問神經科醫師進行比較。研究使用Epic電子健康紀錄的病人數據，CG4為51位病人生成了初步診斷和治療計畫。結果顯示，CG4的平均得分為2.57，顧問醫師為2.75，整體成功率相近（CG4為96.1%，顧問醫師為94.1%）。雖然顧問醫師的全面診斷可能性略高，但CG4仍被視為神經科有價值的診斷工具。未來需進一步研究以驗證這些結果。 PubMed DOI

Detection of Intracranial Hemorrhage from Computed Tomography Images: Diagnostic Role and Efficacy of ChatGPT-4o.
從電腦斷層掃描影像檢測顱內出血：ChatGPT-4o 的診斷角色與效能。 Diagnostics (Basel) 2025-01-25

本研究探討AI模型ChatGPT-4 Omni在非對比電腦斷層掃描影像中檢測顱內出血的有效性。分析240個案例後，發現該模型在識別影像模式上達到100%準確率，但在ICH檢測的準確率為68.3%。敏感性為79.2%，特異性57.5%。在第二次評估中，準確率提升至73.3%。雖然模型在識別影像模式和檢測ICH方面有潛力，但在出血定位和分類上仍有不足，建議進一步訓練以提升其醫療應用表現。 PubMed DOI

Evaluating ChatGPT's diagnostic potential for pathology images.
評估 ChatGPT 在病理影像診斷中的潛力。 Front Med (Lausanne) 2025-02-07

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64，結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好，準確率達0.88，對腺癌檢測的敏感性也很高。整體來看，GPT-4的表現與病理住院醫師相當，顯示其作為輔助工具的潛力。 PubMed DOI

Comparing ChatGPT 4.0's Performance in Interpreting Thyroid Nodule Ultrasound Reports Using ACR-TI-RADS 2017: Analysis Across Different Levels of Ultrasound User Experience.
比較 ChatGPT 4.0 在解讀使用 ACR-TI-RADS 2017 的甲狀腺結節超音波報告中的表現：不同超音波使用者經驗水平的分析。 Diagnostics (Basel) 2025-03-13

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力，並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示，ChatGPT在回聲焦點的評估上與專家一致，但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT，顯示傳統醫學訓練的重要性。結論指出，ChatGPT可作為輔助診斷工具，但無法取代人類專業知識，並建議改善AI算法以增強其臨床實用性。 PubMed DOI

Evaluating ChatGPT-4's Performance in Identifying Radiological Anatomy in FRCR Part 1 Examination Questions.
ChatGPT-4 在 FRCR 第一部分考試題目中辨識放射解剖學表現之評估 Indian J Radiol Imaging 2025-04-29

這項研究發現，ChatGPT-4在回答FRCR Part 1放射解剖學題目時，辨認解剖結構的正確率很低（僅4–7.5%），但能正確判斷影像檢查方式。對於影像中有出現但非指定結構的辨識，表現較好（超過五成接近正確），但左右判斷仍有困難（約四成正確）。整體來說，ChatGPT-4目前在放射解剖影像判讀上還有很大進步空間。 PubMed DOI

Large Language Models for Diagnosing Focal Liver Lesions From CT/MRI Reports: A Comparative Study With Radiologists.
利用大型語言模型從CT/MRI報告診斷肝臟局灶性病變：與放射科醫師的比較研究 Liver Int 2025-05-10

這項研究發現，ChatGPT-4o在診斷肝臟局部病灶時，表現大致和資淺放射科醫師差不多，但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程，也沒明顯提升醫師的診斷表現。總結來說，目前大型語言模型對診斷這類疾病的幫助有限，準確度還有待加強。 PubMed DOI

Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters.
ChatGPT-4.0 在分類多模態肌肉骨骼腫塊之診斷準確性的評估：與人工評分者之比較研究 Rofo 2025-06-03

研究發現，ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時，主要診斷正確率低於人類專家（44%比87%），但若加上次要診斷，差距縮小（71%比94%）。雖然準確度還不及專家，但因為速度快又隨時可用，未來有機會成為放射科的輔助工具。 PubMed DOI

Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study.
運用大型語言模型於乳房影像報告與資料系統（BI-RADS）分級及惡性預測以提升乳房超音波診斷：回溯性研究 JMIR Med Inform 2025-06-11

這項回溯性研究發現，ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時，表現比資淺放射科醫師更好，和資深醫師差不多。它預測惡性腫瘤的準確度高（AUC 0.82，準確率80.63%，敏感度90.56%，特異度73.51%）。若把ChatGPT-4納入影像判讀流程，能進一步提升醫師診斷準確率，減少不同醫師間的判讀差異。 PubMed DOI

原始文章

站上相關主題文章列表