Quantitative evaluation of GPT-4's performance on US and Chinese osteoarthritis treatment guideline interpretation and orthopaedic case consultation.
GPT-4 在美國和中國骨關節炎治療指導解讀及骨科病例諮詢中的表現定量評估。 BMJ Open 2025-01-14

這項研究評估了GPT-4在解讀美國和中國骨關節炎治療指導方針的能力，以及在骨科病例診斷和管理上的有效性。研究結果顯示，GPT-4對指導方針的正確匹配率為46.4%，準確度得分為4.3±1.6，完整性得分為2.8±0.6。在模擬案例中，超過88%的回應被認為是全面的。總體來看，GPT-4在骨科實踐和病人教育上有潛力，但在臨床應用上仍需進一步驗證。 PubMed DOI

Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

High identification and positive-negative discrimination but limited detailed grading accuracy of ChatGPT-4o in knee osteoarthritis radiographs.
ChatGPT-4o 在膝關節骨關節炎放射影像中的高識別率和正負鑑別能力，但詳細分級準確性有限。 Knee Surg Sports Traumatol Arthrosc 2025-03-07

本研究探討ChatGPT-4o在分析膝關節骨關節炎（OA）X光片的能力，並評估其準確性。117張X光片由兩位骨科醫生和ChatGPT-4o分析，使用多種分級系統。結果顯示，ChatGPT-4o的識別率達100%，但詳細分級準確性僅35%，遠低於醫生的89.6%。此外，ChatGPT-4o在嚴重病例中常低估OA程度，且其評分一致性較差。雖然能快速識別，但在臨床應用上仍需提升分級準確性。未來研究應聚焦於改善這方面的表現。 PubMed DOI

Can a Large Language Model Interpret Data in the Electronic Health Record to Infer Minimum Clinically Important Difference Achievement of Knee Osteoarthritis Outcome Score-Joint Replacement Score Following Total Knee Arthroplasty?
大型語言模型能否解讀電子健康紀錄中的數據，以推斷全膝關節置換術後膝關節骨關節炎結果評分-關節置換評分的最小臨床重要差異達成情況？ J Arthroplasty 2025-03-26

這項研究探討了大型語言模型（LLM），特別是ChatGPT 3.5，分析電子健康紀錄（EHR）筆記的潛力，判斷全膝關節置換術（TKA）患者在一年後是否達到膝關節骨關節炎結果評分的最小臨床重要差異（MCID）。研究發現，ChatGPT 3.5的敏感性高達97%，但特異性僅33%，整體準確率為65%。相比之下，外科醫生的敏感性為90%，特異性63%，準確率76%。結論指出，LLM在識別改善患者方面表現良好，但仍需改進以提升其臨床應用的準確性。 PubMed DOI

Information Extraction from Lumbar Spine MRI Radiology Reports Using GPT4: Accuracy and Benchmarking Against Research-Grade Comprehensive Scoring.
使用 GPT-4 從腰椎 MRI 放射學報告中提取資訊：準確性及與研究級綜合評分的基準比較。 Diagnostics (Basel) 2025-04-12

本研究旨在開發一個標準化流程，利用大型語言模型（LLM）從腰椎MRI報告中提取數據，並評估其與專業評分的一致性。研究分析了230名慢性下背痛患者的數據，結果顯示模型在數據提取上表現優異，平均F1分數達0.96，但與專業評分的一致性僅為中等（kappa 0.424）。特別是在側凹狹窄的報告中，低報現象明顯，顯示出需要更客觀的數據提取方法。 PubMed DOI

Artificial Intelligence Large Language Models Improve Patient Comprehension of Radiologist MRI Reports.
人工智慧大型語言模型提升病患對放射科醫師MRI報告的理解力 Arthroscopy 2025-04-27

一項針對64位骨科病患的研究發現，用ChatGPT-4翻譯MRI報告能讓病患更容易看懂內容，理解度提升20%，有87.5%的人覺得AI翻譯更清楚。不過，大家對傳統報告的信任感還是稍高。AI翻譯雖然有幫助，但還是需要醫師把關，確保資訊正確。 PubMed DOI

Comparing Artificial Intelligence-Generated and Clinician-Created Personalized Self-Management Guidance for Patients With Knee Osteoarthritis: Blinded Observational Study.
人工智慧生成與臨床醫師制定之膝關節骨關節炎患者個人化自我管理指引的比較：盲態觀察性研究 J Med Internet Res 2025-05-07

這項研究發現，GPT-4在為膝關節骨關節炎患者產出個人化自我管理衛教內容時，表現比臨床醫師更快、更完整且更精確。不過，GPT-4有時用詞太複雜，對健康識讀較低的患者不夠友善。未來建議AI與醫師共同審查，才能兼顧品質與安全。 PubMed DOI

Integrating Large language models into radiology workflow: Impact of generating personalized report templates from summary.
將大型語言模型整合至放射科工作流程：從摘要生成個人化報告模板的影響 Eur J Radiol 2025-05-28

這項研究發現，像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告，速度比傳統方式快，品質也差不多。雖然大多數錯誤跟模板有關，重大臨床錯誤很少見，但還是建議要有人工審查，確保報告正確無誤。 PubMed DOI

The Role of Artificial Intelligence Large Language Models in Personalized Rehabilitation Programs for Knee Osteoarthritis: An Observational Study.
人工智慧大型語言模型在膝關節骨關節炎個人化復健計畫中的角色：一項觀察性研究 J Med Syst 2025-06-03

這項研究發現，ChatGPT-4o 和 Gemini Advanced 在設計膝蓋骨關節炎復健計畫時，和物理治療師的整體一致性不錯，但在運動細節上還有待加強。ChatGPT-4o 表現較佳，尤其在進階階段。不過，這些 AI 目前還缺乏臨床判斷和細節指導，臨床應用前仍需專家把關與優化。 PubMed DOI

原始文章

站上相關主題文章列表