ChatGPT's diagnostic performance based on textual vs. visual information compared to radiologists' diagnostic performance in musculoskeletal radiology.
ChatGPT在肌肉骨骼放射學中基於文本與視覺資訊的診斷表現，與放射科醫師的診斷表現相比較。 Eur Radiol 2024-07-12

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示，基於GPT-4的ChatGPT準確率為43%，優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師，但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現，強調提供詳細影像描述以提高準確性。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

Evaluating ChatGPT's Performance in Classifying Pertrochanteric Fractures Based on Arbeitsgemeinschaft für Osteosynthesefragen/Orthopedic Trauma Association (AO/OTA) Standards.
根據 Arbeitsgemeinschaft für Osteosynthesefragen/Orthopedic Trauma Association (AO/OTA) 標準評估 ChatGPT 在分類股骨轉子骨折方面的表現。 Cureus 2025-02-28

本研究探討生成預訓練變壓器（ChatGPT）在放射影像中分類股骨轉子周圍骨折的準確性。研究結果顯示，ChatGPT能根據修訂的AO/OTA分類系統將骨折分為穩定（A1）和不穩定（A2），其分類一致性（κ = 0.420）與骨科醫生相似，顯示中等可靠性。這表明ChatGPT可有效整合進臨床工作流程，並在數據收集上需求較低，對醫療應用具潛力。 PubMed DOI

ChatGPT performance in assessing musculoskeletal MRI scan appropriateness based on ACR appropriateness criteria.
ChatGPT 在根據 ACR 適當性標準評估肌肉骨骼 MRI 掃描適當性方面的表現。 Sci Rep 2025-02-28

這項研究探討了一個基於GPT-4的大型語言模型（LLM）在評估肌肉骨骼MRI掃描請求的有效性，特別針對放射學領域。這個模型結合了來自33項美國放射學會的適當性標準，並在70個虛構案例上測試。結果顯示，優化後的LLM準確率達92.86%，明顯優於基準模型和標準GPT-4，且在處理臨床資訊不足的案例時特別有效。這顯示出其在放射學臨床決策支持中的潛力。 PubMed DOI

Evaluating a large language model's accuracy in chest X-ray interpretation for acute thoracic conditions.
評估大型語言模型在急性胸部疾病胸部 X 光解讀中的準確性。 Am J Emerg Med 2025-04-02

這項研究探討了使用ChatGPT 4.0搭配「X-Ray Interpreter」來解讀急診胸部X光片。分析了1,400張來自NIH的影像，涵蓋七種病理類別。ChatGPT在識別正常X光片方面表現優異，敏感度達98.9%，特異度93.9%。對於肺炎和氣胸的診斷表現較好，但在肺不張和肺氣腫上則較差。總體來看，ChatGPT作為輔助診斷工具顯示潛力，但對於更細微的診斷仍需改進，未來可與專業影像識別模型整合以提升能力。 PubMed DOI

The Accuracy of ChatGPT-4o in Interpreting Chest and Abdominal X-Ray Images.
ChatGPT-4o 在解讀胸部與腹部 X 光影像的準確性 J Pers Med 2025-05-27

這項研究發現，ChatGPT-4o在判讀X光片時，整體正確率約69%，腹部X光片表現比胸部好。它對常見異常如肺水腫、腸阻塞較準確，但對氣胸、肋骨骨折較弱。雖然AI回覆都算安全，但目前準確率還不夠高，還需改進才能真正成為臨床輔助工具。 PubMed DOI

Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters.
ChatGPT-4.0 在分類多模態肌肉骨骼腫塊之診斷準確性的評估：與人工評分者之比較研究 Rofo 2025-06-03

研究發現，ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時，主要診斷正確率低於人類專家（44%比87%），但若加上次要診斷，差距縮小（71%比94%）。雖然準確度還不及專家，但因為速度快又隨時可用，未來有機會成為放射科的輔助工具。 PubMed DOI

Can AI-Based ChatGPT Models Accurately Analyze Hand-Wrist Radiographs? A Comparative Study.
AI-Based ChatGPT 模型能準確分析手腕X光片嗎？一項比較研究 Diagnostics (Basel) 2025-06-26

這項研究比較三種ChatGPT模型預測手腕X光骨齡和生長階段的準確度，結果都和專家評估高度一致。GPT-o1-pro骨齡預測最準，GPT-4o則在生長階段分類表現最佳。雖然還不能取代臨床判斷，但這些AI工具已展現初步評估的實用性，未來還需持續優化。 PubMed DOI

原始文章

站上相關主題文章列表