Comparative performance analysis of large language models: ChatGPT-3.5, ChatGPT-4 and Google Gemini in glucocorticoid-induced osteoporosis.
大語言模型的比較性能分析：ChatGPT-3.5、ChatGPT-4 和 Google Gemini 在糖皮質激素誘導的骨質疏鬆症中的表現。 J Orthop Surg Res 2024-09-17

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4 和 Google Gemini，針對糖皮質激素誘導的骨質疏鬆症（GIOP）及其預防和治療的美國風濕病學會指導方針的表現。研究發現，Google Gemini 的答案較為簡潔，但 ChatGPT-4 在準確性和全面性上表現更佳，特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升，而 Google Gemini 則無明顯差異。總體來看，ChatGPT-4 是最佳選擇。 PubMed DOI

Comparing ChatGPT-3.5 and ChatGPT-4's alignments with the German evidence-based S3 guideline for adult soft tissue sarcoma.
比較 ChatGPT-3.5 和 ChatGPT-4 在成人軟組織肉瘤方面與德國循證 S3 指南的一致性。 iScience 2025-01-06

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答成人軟組織肉瘤相關臨床問題的表現，問題依據德國S3指引制定。兩位肉瘤專家對80個問題的回答進行評分。結果顯示，ChatGPT-4的表現優於ChatGPT-3.5，準確性和充分性中位數分數分別為5.5對5.0和5.0對4.0。雖然兩者在某些主題上相似，但ChatGPT-4在一般治療及四肢/軀幹肉瘤方面更佳。不過，兩者偶爾也會提供誤導性和潛在危險的信息，強調臨床應用需謹慎及人類監督的重要性。 PubMed DOI

ChatGPT's Performance in Spinal Metastasis Cases-Can We Discuss Our Complex Cases with ChatGPT?
ChatGPT 在脊椎轉移癌病例中的表現 - 我們能否與 ChatGPT 討論我們的複雜病例？ J Clin Med 2025-01-08

人工智慧（AI）如ChatGPT-4正在改變醫療保健，特別是在脊椎轉移的治療決策上。本研究評估了ChatGPT-4在五個脊椎轉移案例中的表現，並與五位經驗豐富的脊椎外科醫生進行比較。結果顯示，ChatGPT的建議在73%的案例中與醫生一致，但多數建議偏向一般性，缺乏具體臨床指導。這顯示出AI在複雜醫療決策中的潛力與限制，未來需進一步研究以提升其應用效果。 PubMed DOI

Comparing ChatGPT 3.5 and 4.0 in Low Back Pain Patient Education: Addressing Strengths Limitations, and Psychosocial Challenges.
比較 ChatGPT 3.5 和 4.0 在下背痛患者教育中的應用：應對優勢、限制及心理社會挑戰。 World Neurosurg 2025-02-14

這項研究評估了AI工具，特別是ChatGPT 3.5和4.0，在提供低背痛患者教育的效果。結果顯示，ChatGPT 4.0在回應質量上明顯優於3.5，得分分別為1.03和2.07，且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳，顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

Evaluating large language models as a supplementary patient information resource on antimalarial use in systemic lupus erythematosus.
評估大型語言模型作為系統性紅斑狼瘡抗瘧藥使用的補充病患資訊資源。 Lupus 2025-02-27

這項研究評估了三種大型語言模型（LLMs）—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡（SLE）使用的準確性和完整性。研究設計了十三個問題，兩位風濕病學專家對模型回應進行評分。結果顯示，雖然準確性高，但完整性差異明顯：Copilot 38.5%，GPT-3.5 55.9%，GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面，GPT-4 完整性達100%。研究指出，GPT-4 有潛力改善病人對 SLE 治療的理解，但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

GP or ChatGPT? Ability of large language models (LLMs) to support general practitioners when prescribing antibiotics.
大型語言模型 (LLMs) 在支持全科醫生開立抗生素時的能力：GP 還是 ChatGPT？ J Antimicrob Chemother 2025-03-13

大型語言模型（LLMs）在醫療領域的應用日益增多，能協助診斷和治療感染。一項研究比較了全科醫生與六個LLMs（如ChatGPT、Gemini等）對24個臨床案例的反應。全科醫生在診斷和抗生素處方的準確率高達96%-100%，但在劑量和療程的準確性上較低（50%-75%）。LLMs的表現也不錯，但在參考指導方針的能力上不一致，特別是在挪威的表現不佳。研究指出LLMs有數據洩漏的風險，雖然它們在抗生素處方上有潛力，但全科醫生在臨床情境解釋和指導方針應用上仍更具優勢。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Assessment of ChatGPT's adherence to EULAR diagnostic criteria and therapeutic protocols for rheumatoid arthritis at two distinct time points, 14 days apart, utilizing binary and multiple-choice inquiries.
ChatGPT 在兩個不同時間點（間隔 14 天）對於類風濕性關節炎 EULAR 診斷標準與治療指引的遵循性評估：採用二元與多選題進行分析 Clin Rheumatol 2025-04-22

這項研究發現，ChatGPT-4在依循EULAR類風濕性關節炎指引時表現不錯，尤其是是非題答對率更高。經兩位風濕科醫師評分，答案正確且一致性高，部分答案在回饋後還有進步。顯示ChatGPT-4有潛力成為RA臨床決策的輔助工具，有助提升風濕科的循證與個人化醫療。 PubMed DOI

Enhancing treatment decision-making for low back pain: a novel framework integrating large language models with retrieval-augmented generation technology.
提升下背痛治療決策：結合大型語言模型與檢索增強生成技術的新穎架構 Front Med (Lausanne) 2025-05-29

這項研究打造了專為慢性下背痛設計的臨床決策支援系統，結合大型語言模型、RAG和LtM提示，讓AI更貼近專家思考。客製化的CLBP-GPT在準確性、相關性等表現都勝過現有主流模型，能提供更精確、完整的診斷與治療建議，有助提升患者的個人化照護品質。 PubMed DOI

Evaluation of the Performance of Large Language Models in the Management of Axial Spondyloarthropathy: Analysis of EULAR 2022 Recommendations.
大型語言模型在軸向脊椎關節病管理中的表現評估：EULAR 2022 指南分析 Diagnostics (Basel) 2025-06-26

這項研究發現，Gemini 2.0的答案最容易閱讀，ChatGPT-4o和Gemini 2.0的回覆比ChatGPT-3.5更可靠、實用，且ChatGPT-4o的內容和指引最接近。整體來說，ChatGPT-4o和Gemini 2.0有機會成為風濕免疫科醫師的臨床決策好幫手。 PubMed DOI

原始文章

站上相關主題文章列表