ChatGPT's diagnostic performance based on textual vs. visual information compared to radiologists' diagnostic performance in musculoskeletal radiology.
ChatGPT在肌肉骨骼放射學中基於文本與視覺資訊的診斷表現，與放射科醫師的診斷表現相比較。 Eur Radiol 2024-07-12

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示，基於GPT-4的ChatGPT準確率為43%，優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師，但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現，強調提供詳細影像描述以提高準確性。 PubMed DOI

Evaluating the Role of GPT-4 and GPT-4o in the Detectability of Chest Radiography Reports Requiring Further Assessment.
評估 GPT-4 和 GPT-4o 在需要進一步評估的胸部放射線報告可檢測性中的角色。 Cureus 2025-01-13

這項研究評估了GPT-4和GPT-4o在識別需進一步評估的胸部放射線報告的效果。研究分析了來自NIH的100個案例，結果顯示GPT-4o在敏感性、準確性和陰性預測值上均優於GPT-4，而GPT-4在特異性和陽性預測值上則表現更佳。總體來看，GPT-4o在臨床應用中顯示出良好的潛力。 PubMed DOI

Evaluating ChatGPT-4 for the Interpretation of Images from Several Diagnostic Techniques in Gastroenterology.
評估 ChatGPT-4 在消化內科多種診斷技術影像解讀中的應用。 J Clin Med 2025-01-25

這項研究評估了ChatGPT-4在解讀各種胃腸科影像的表現，分析了740張影像，並將預測結果與既有診斷進行比較。結果顯示，ChatGPT-4的準確性在不同程序中差異明顯，膠囊內視鏡的準確率介於50%到90%之間，設備輔助腸鏡為67%，而內視鏡超音波和高解析度肛門鏡的表現則較差。整體來看，這顯示ChatGPT-4的診斷能力尚不理想，臨床應用前仍需進一步改進。 PubMed DOI

Evaluating ChatGPT's diagnostic potential for pathology images.
評估 ChatGPT 在病理影像診斷中的潛力。 Front Med (Lausanne) 2025-02-07

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64，結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好，準確率達0.88，對腺癌檢測的敏感性也很高。整體來看，GPT-4的表現與病理住院醫師相當，顯示其作為輔助工具的潛力。 PubMed DOI

ChatGPT vs. Gemini: Comparative accuracy and efficiency in Lung-RADS score assignment from radiology reports.
ChatGPT 與 Gemini：在放射學報告中 Lung-RADS 分數分配的比較準確性與效率。 Clin Imaging 2025-03-16

這項研究評估了大型語言模型（LLMs）在根據低劑量電腦斷層掃描（LDCT）報告分配Lung-RADS分數的表現。分析了242份報告，測試了四個模型：ChatGPT-3.5、ChatGPT-4o、Google Gemini和Gemini Advanced。結果顯示，ChatGPT-4o準確率最高，達83.6%，而ChatGPT-3.5為70.1%。反應時間方面，ChatGPT-3.5最快，約4秒。雖然ChatGPT-4o表現優於其他模型，但仍未達到人類放射科醫生的準確性，未來需進一步研究以提升其臨床決策的可靠性。 PubMed DOI

Preliminary evaluation of ChatGPT model iterations in emergency department diagnostics.
急診科診斷中 ChatGPT 模型迭代的初步評估。 Sci Rep 2025-03-27

這項回顧性研究評估了不同ChatGPT模型（如GPT-3.5、GPT-4等）在預測急診病人診斷的表現。研究針對30名病人，發現GPT-3.5在前三名鑑別診斷的準確率高達80%，但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過，所有模型在處理非典型案例時仍面臨挑戰，顯示其在急診環境中的應用限制。 PubMed DOI

Evaluating ChatGPT-4's Performance in Identifying Radiological Anatomy in FRCR Part 1 Examination Questions.
ChatGPT-4 在 FRCR 第一部分考試題目中辨識放射解剖學表現之評估 Indian J Radiol Imaging 2025-04-29

這項研究發現，ChatGPT-4在回答FRCR Part 1放射解剖學題目時，辨認解剖結構的正確率很低（僅4–7.5%），但能正確判斷影像檢查方式。對於影像中有出現但非指定結構的辨識，表現較好（超過五成接近正確），但左右判斷仍有困難（約四成正確）。整體來說，ChatGPT-4目前在放射解剖影像判讀上還有很大進步空間。 PubMed DOI

The Accuracy of ChatGPT-4o in Interpreting Chest and Abdominal X-Ray Images.
ChatGPT-4o 在解讀胸部與腹部 X 光影像的準確性 J Pers Med 2025-05-27

這項研究發現，ChatGPT-4o在判讀X光片時，整體正確率約69%，腹部X光片表現比胸部好。它對常見異常如肺水腫、腸阻塞較準確，但對氣胸、肋骨骨折較弱。雖然AI回覆都算安全，但目前準確率還不夠高，還需改進才能真正成為臨床輔助工具。 PubMed DOI

Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters.
ChatGPT-4.0 在分類多模態肌肉骨骼腫塊之診斷準確性的評估：與人工評分者之比較研究 Rofo 2025-06-03

研究發現，ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時，主要診斷正確率低於人類專家（44%比87%），但若加上次要診斷，差距縮小（71%比94%）。雖然準確度還不及專家，但因為速度快又隨時可用，未來有機會成為放射科的輔助工具。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

原始文章

站上相關主題文章列表