Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

Evaluating the Potential of Large Language Models for Vestibular Rehabilitation Education: A Comparison of ChatGPT, Google Gemini, and Clinicians.
評估大型語言模型在前庭康復教育中的潛力：ChatGPT、Google Gemini 與臨床醫師的比較。 Phys Ther 2025-02-11

這項研究比較了 ChatGPT 和 Google Gemini 兩個大型語言模型在回答前庭康復相關問題的表現。三十位專業人士和學生參加了包含20題的前庭知識測試，結果顯示 ChatGPT 得分70%，優於 Gemini 的60%。兩者在臨床知識上表現優異，但在臨床推理方面則不佳。專家評估 ChatGPT 的回答準確性，發現45%為「全面的」，但25%完全不正確。研究建議在使用這些模型時需謹慎，並強調結合臨床專業知識的重要性，以提升病人護理。 PubMed DOI

Can a Large Language Model Interpret Data in the Electronic Health Record to Infer Minimum Clinically Important Difference Achievement of Knee Osteoarthritis Outcome Score-Joint Replacement Score Following Total Knee Arthroplasty?
大型語言模型能否解讀電子健康紀錄中的數據，以推斷全膝關節置換術後膝關節骨關節炎結果評分-關節置換評分的最小臨床重要差異達成情況？ J Arthroplasty 2025-03-26

這項研究探討了大型語言模型（LLM），特別是ChatGPT 3.5，分析電子健康紀錄（EHR）筆記的潛力，判斷全膝關節置換術（TKA）患者在一年後是否達到膝關節骨關節炎結果評分的最小臨床重要差異（MCID）。研究發現，ChatGPT 3.5的敏感性高達97%，但特異性僅33%，整體準確率為65%。相比之下，外科醫生的敏感性為90%，特異性63%，準確率76%。結論指出，LLM在識別改善患者方面表現良好，但仍需改進以提升其臨床應用的準確性。 PubMed DOI

Performance of Artificial Intelligence in Addressing Questions Regarding Management of Osteochondritis Dissecans.
人工智慧在解決有關骨軟骨壞死症管理問題上的表現。 Sports Health 2025-04-02

這項研究評估了大型語言模型（LLM）如ChatGPT和Gemini在提供骨關節軟骨壞死（OCD）資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應，涵蓋相關性、準確性、清晰度等六個類別。結果顯示，ChatGPT在清晰度上得分最高，而Gemini在相關性和準確性上表現優異。不過，兩者在基於證據的回應上得分較低，顯示需改進。整體而言，ChatGPT表現較佳，但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

Comparative evaluation of artificial intelligence models GPT-4 and GPT-3.5 in clinical decision-making in sports surgery and physiotherapy: a cross-sectional study.
GPT-4 與 GPT-3.5 在運動外科與物理治療臨床決策中的比較評估：一項橫斷面研究。 BMC Med Inform Decis Mak 2025-04-14

這項研究探討大型語言模型（LLMs），特別是GPT-4和GPT-3.5，在運動外科和物理治療的臨床決策效果。56位專業人士使用5點李克特量表評估10個常見肌肉骨骼疾病的情境。結果顯示，GPT-4在診斷準確性、治療計畫和手術建議上均優於GPT-3.5，且內部一致性更高。研究指出，GPT-4能提升醫療診斷和治療規劃，但AI應作為決策支持工具，而非取代專家判斷，未來需進一步探索AI在臨床的應用。 PubMed DOI

A cross-sectional study on ChatGPT's alignment with clinical practice guidelines in musculoskeletal rehabilitation.
ChatGPT 在肌肉骨骼復健臨床實務指引一致性的橫斷面研究 BMC Musculoskelet Disord 2025-04-24

這項研究發現，ChatGPT（GPT-4）在解釋肌肉骨骼疾病資訊時表現不錯，但在提供復健建議時內容較不完整且穩定度不足。評審者對疾病資訊的評價較一致，但對復健建議的看法分歧。整體來說，ChatGPT可作為輔助工具，但目前還無法取代物理治療師的專業判斷，臨床應用上還需再加強。 PubMed DOI

Are Large Language Model-Based Chatbots Effective in Providing Reliable Medical Advice for Achilles Tendinopathy? An International Multispecialist Evaluation.
以大型語言模型為基礎的聊天機器人在提供可靠的 Achilles Tendinopathy 醫療建議方面是否有效？國際多專科評估 Orthop J Sports Med 2025-05-05

三款主流聊天機器人（ChatGPT 4.0、Claude 2、Gemini）回答阿基里斯肌腱病變相關問題，ChatGPT 4.0「優秀」答案較多，但總分差不多。專家評分有落差，顯示標準化評估還不夠。雖然這些AI能提供不錯的醫療資訊，但臨床應用時還是要小心。 PubMed DOI

Comparing Artificial Intelligence-Generated and Clinician-Created Personalized Self-Management Guidance for Patients With Knee Osteoarthritis: Blinded Observational Study.
人工智慧生成與臨床醫師制定之膝關節骨關節炎患者個人化自我管理指引的比較：盲態觀察性研究 J Med Internet Res 2025-05-07

這項研究發現，GPT-4在為膝關節骨關節炎患者產出個人化自我管理衛教內容時，表現比臨床醫師更快、更完整且更精確。不過，GPT-4有時用詞太複雜，對健康識讀較低的患者不夠友善。未來建議AI與醫師共同審查，才能兼顧品質與安全。 PubMed DOI

AI-driven rehabilitation: evaluation of ChatGPT-4o for generating personalized physical rehabilitation plans in comorbid patients.
AI驅動的復健：評估ChatGPT-4o於共病患者產生個人化物理復健計畫的應用 Wiad Lek 2025-05-14

這項研究發現，ChatGPT-4o能為多重健康問題患者產生個人化復健計畫，經專家評分後，大多數只需稍作修正即可用，且在臨床準確性與安全性表現佳，尤其針對呼吸和肌肉骨骼問題。不過，實際應用前還是需要專家把關與調整。 PubMed DOI

Enhancing responses from large language models with role-playing prompts: a comparative study on answering frequently asked questions about total knee arthroplasty.
以角色扮演提示增強大型語言模型的回應：關於全膝關節置換術常見問題回答的比較研究 BMC Med Inform Decis Mak 2025-05-23

這項研究比較 GPT-3.5、GPT-4、Google Gemini 和 Claude 3 Opus 四款主流大型語言模型，針對全膝關節置換手術常見病人問題的回答表現。結果發現，ChatGPT-4 在加入「資深骨科醫師」角色扮演提示後，正確性、完整性和可接受性都表現最佳。角色扮演提示能明顯提升 ChatGPT 系列的回答品質，但對 Gemini 和 Claude 幫助不大。整體來說，LLM 對骨科衛教有幫助，但偶爾還是會有錯誤資訊。 PubMed DOI

原始文章

站上相關主題文章列表