ChatGPT's diagnostic performance based on textual vs. visual information compared to radiologists' diagnostic performance in musculoskeletal radiology.
ChatGPT在肌肉骨骼放射學中基於文本與視覺資訊的診斷表現，與放射科醫師的診斷表現相比較。 Eur Radiol 2024-07-12

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示，基於GPT-4的ChatGPT準確率為43%，優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師，但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現，強調提供詳細影像描述以提高準確性。 PubMed DOI

Quantitative evaluation of GPT-4's performance on US and Chinese osteoarthritis treatment guideline interpretation and orthopaedic case consultation.
GPT-4 在美國和中國骨關節炎治療指導解讀及骨科病例諮詢中的表現定量評估。 BMJ Open 2025-01-14

這項研究評估了GPT-4在解讀美國和中國骨關節炎治療指導方針的能力，以及在骨科病例診斷和管理上的有效性。研究結果顯示，GPT-4對指導方針的正確匹配率為46.4%，準確度得分為4.3±1.6，完整性得分為2.8±0.6。在模擬案例中，超過88%的回應被認為是全面的。總體來看，GPT-4在骨科實踐和病人教育上有潛力，但在臨床應用上仍需進一步驗證。 PubMed DOI

Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

Evaluating ChatGPT's Performance in Classifying Pertrochanteric Fractures Based on Arbeitsgemeinschaft für Osteosynthesefragen/Orthopedic Trauma Association (AO/OTA) Standards.
根據 Arbeitsgemeinschaft für Osteosynthesefragen/Orthopedic Trauma Association (AO/OTA) 標準評估 ChatGPT 在分類股骨轉子骨折方面的表現。 Cureus 2025-02-28

本研究探討生成預訓練變壓器（ChatGPT）在放射影像中分類股骨轉子周圍骨折的準確性。研究結果顯示，ChatGPT能根據修訂的AO/OTA分類系統將骨折分為穩定（A1）和不穩定（A2），其分類一致性（κ = 0.420）與骨科醫生相似，顯示中等可靠性。這表明ChatGPT可有效整合進臨床工作流程，並在數據收集上需求較低，對醫療應用具潛力。 PubMed DOI

ChatGPT performance in assessing musculoskeletal MRI scan appropriateness based on ACR appropriateness criteria.
ChatGPT 在根據 ACR 適當性標準評估肌肉骨骼 MRI 掃描適當性方面的表現。 Sci Rep 2025-02-28

這項研究探討了一個基於GPT-4的大型語言模型（LLM）在評估肌肉骨骼MRI掃描請求的有效性，特別針對放射學領域。這個模型結合了來自33項美國放射學會的適當性標準，並在70個虛構案例上測試。結果顯示，優化後的LLM準確率達92.86%，明顯優於基準模型和標準GPT-4，且在處理臨床資訊不足的案例時特別有效。這顯示出其在放射學臨床決策支持中的潛力。 PubMed DOI

Can Artificial Intelligence Diagnose Knee Osteoarthritis?
人工智慧能診斷膝關節骨關節炎嗎？ JMIR Biomed Eng 2025-04-23

**重點整理：** GPT-4o在偵測膝關節骨關節炎時表現出高敏感度（能夠準確找出有病變的膝蓋），但特異性較低（常常把健康的膝蓋誤判為有病變）；因此，無論是病患還是醫師，在依賴GPT-4o進行膝關節骨關節炎影像分析時都要特別小心。 PubMed DOI

Evaluating artificial intelligence performance in medical image analysis: Sensitivity, specificity, accuracy, and precision of ChatGPT-4o on Kellgren-Lawrence grading of knee X-ray radiographs.
醫學影像分析中人工智慧表現之評估：ChatGPT-4o 在膝關節 X 光片 Kellgren-Lawrence 分級的敏感度、特異度、準確度與精確度 Knee 2025-04-24

這項研究發現，ChatGPT-4o在判讀膝關節X光片和分級骨關節炎時，表現遠不如專業放射科醫師，準確率只有0.23，幾乎無法正確分辨不同等級。結果顯示，目前ChatGPT-4o還不適合用在這類臨床診斷，未來還需要大幅改進。 PubMed DOI

Large language models for efficient whole-organ MRI score-based reports and categorization in knee osteoarthritis.
用於膝骨關節炎全器官MRI評分報告與分類之高效大型語言模型 Insights Imaging 2025-05-14

這項研究發現，GPT-4o自動產生的膝關節MRI報告，不僅比GPT-4o-mini更準確，還能幾乎完美預測骨關節炎嚴重程度。骨科醫師也認為這些AI報告更好用、審閱更快。整體來說，GPT-4o有機會幫助醫師減少文書工作，提升臨床效率。 PubMed DOI

Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters.
ChatGPT-4.0 在分類多模態肌肉骨骼腫塊之診斷準確性的評估：與人工評分者之比較研究 Rofo 2025-06-03

研究發現，ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時，主要診斷正確率低於人類專家（44%比87%），但若加上次要診斷，差距縮小（71%比94%）。雖然準確度還不及專家，但因為速度快又隨時可用，未來有機會成為放射科的輔助工具。 PubMed DOI

Exploring ChatGPT's Efficacy in Orthopaedic Arthroplasty Questions Compared to Adult Reconstruction Surgeons.
ChatGPT 在骨科關節置換問題上的效能：與成人重建外科醫師的比較 Arthroplast Today 2025-07-23

這項研究發現，ChatGPT-4在回答關節置換相關問題時，正確率只有66.9%，明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上，表現更差。雖然ChatGPT可當作學習輔助，但還無法取代專業醫師的臨床判斷，未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI

原始文章

站上相關主題文章列表