Vignette-based comparative analysis of ChatGPT and specialist treatment decisions for rheumatic patients: results of the Rheum2Guide study.
基於案例的 ChatGPT 與專科治療決策在風濕病患者中的比較分析：Rheum2Guide 研究結果。 Rheumatol Int 2024-08-10

這項研究探討大型語言模型（LLMs），如ChatGPT-3.5和GPT-4，在風濕性疾病治療計畫的潛力，並與臨床風濕病學委員會（RB）的計畫進行比較。結果顯示，68.8%的案例中RB的計畫更受偏好，GPT-4和GPT-3.5則分別為16.3%和15.0%。GPT-4在一線治療中較受青睞，且與RB的計畫在安全性上無顯著差異。雖然LLMs生成的計畫安全且高品質，但RB的計畫在遵循指導方針和整體品質上表現更佳，建議需進一步研究以提升LLMs的臨床應用。 PubMed DOI

Comparative performance analysis of large language models: ChatGPT-3.5, ChatGPT-4 and Google Gemini in glucocorticoid-induced osteoporosis.
大語言模型的比較性能分析：ChatGPT-3.5、ChatGPT-4 和 Google Gemini 在糖皮質激素誘導的骨質疏鬆症中的表現。 J Orthop Surg Res 2024-09-17

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4 和 Google Gemini，針對糖皮質激素誘導的骨質疏鬆症（GIOP）及其預防和治療的美國風濕病學會指導方針的表現。研究發現，Google Gemini 的答案較為簡潔，但 ChatGPT-4 在準確性和全面性上表現更佳，特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升，而 Google Gemini 則無明顯差異。總體來看，ChatGPT-4 是最佳選擇。 PubMed DOI

Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Evaluating the performance of large language models in health education for patients with ankylosing spondylitis/spondyloarthritis: a cross-sectional, single-blind study in China.
評估大型語言模型在健康教育中對於強直性脊柱炎/脊椎關節炎患者的表現：中國的一項橫斷面單盲研究。 BMJ Open 2025-03-21

這項研究評估大型語言模型（LLMs）在教育強直性脊柱炎（AS）和脊椎關節炎（SpA）患者的有效性，涵蓋182名參與者，包括4名風濕病學專家和178名患者。結果顯示，LLMs如ChatGPT-4o和Kimi在提供準確的醫療資訊上表現優於傳統指導，且患者對這些資訊的理解和接受度也較高。研究建議LLMs在醫療知識傳遞和患者教育上具潛力，未來可能成為醫療實踐中的重要工具。 PubMed DOI

Large Language Models' Responses to Spinal Cord Injury: A Comparative Study of Performance.
大型語言模型對脊髓損傷的反應：性能的比較研究。 J Med Syst 2025-03-25

這項研究評估了四個大型語言模型（LLMs）在回答脊髓損傷相關問題的表現，包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示，Gemini的資訊品質最佳，但可讀性較低，需大學程度理解。ChatGPT在準確性上表現最佳，達83.8%的「良好」評級，超過其他模型。所有模型在全面性和自我修正能力上表現良好，特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

Assessment of ChatGPT's adherence to EULAR diagnostic criteria and therapeutic protocols for rheumatoid arthritis at two distinct time points, 14 days apart, utilizing binary and multiple-choice inquiries.
ChatGPT 在兩個不同時間點（間隔 14 天）對於類風濕性關節炎 EULAR 診斷標準與治療指引的遵循性評估：採用二元與多選題進行分析 Clin Rheumatol 2025-04-22

這項研究發現，ChatGPT-4在依循EULAR類風濕性關節炎指引時表現不錯，尤其是是非題答對率更高。經兩位風濕科醫師評分，答案正確且一致性高，部分答案在回饋後還有進步。顯示ChatGPT-4有潛力成為RA臨床決策的輔助工具，有助提升風濕科的循證與個人化醫療。 PubMed DOI

Are Large Language Model-Based Chatbots Effective in Providing Reliable Medical Advice for Achilles Tendinopathy? An International Multispecialist Evaluation.
以大型語言模型為基礎的聊天機器人在提供可靠的 Achilles Tendinopathy 醫療建議方面是否有效？國際多專科評估 Orthop J Sports Med 2025-05-05

三款主流聊天機器人（ChatGPT 4.0、Claude 2、Gemini）回答阿基里斯肌腱病變相關問題，ChatGPT 4.0「優秀」答案較多，但總分差不多。專家評分有落差，顯示標準化評估還不夠。雖然這些AI能提供不錯的醫療資訊，但臨床應用時還是要小心。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Evaluating the readability, quality, and reliability of responses generated by ChatGPT, Gemini, and Perplexity on the most commonly asked questions about Ankylosing spondylitis.
ChatGPT、Gemini 與 Perplexity 回答最常見 Ankylosing spondylitis 問題之可讀性、品質與可靠性評估 PLoS One 2025-06-18

這項研究比較ChatGPT、Perplexity和Gemini三款AI聊天機器人，針對僵直性脊椎炎的回答。結果發現，三者的答案都超過國中六年級的閱讀難度，一般人較難看懂。Perplexity的資訊最可靠、品質也最好。不過，整體來說，這些AI在可讀性、正確性和品質上還有進步空間，未來仍需加強與監督。 PubMed DOI

原始文章

站上相關主題文章列表