Diagnostic accuracy of a large language model in rheumatology: comparison of physician and ChatGPT-4.
風濕病學中一個大型語言模型的診斷準確性：醫師與 ChatGPT-4 的比較。 Rheumatol Int 2024-02-01

臨床前研究指出，像ChatGPT這樣的大型語言模型可能有助於區分炎症性風濕疾病與其他疾病。一項研究比較了ChatGPT-4的診斷準確性與風濕病專家在患者數據上的表現，結果顯示ChatGPT-4在正確診斷方面與專家相當，尤其在炎症性風濕疾病案例中。雖然在檢測疾病方面敏感度高，但特異性較低。總結來說，ChatGPT-4可能是診斷炎症性風濕疾病的實用工具。 PubMed DOI

[What is the potential of ChatGPT for qualified patient information? : Attempt of a structured analysis on the basis of a survey regarding complementary and alternative medicine (CAM) in rheumatology].
ChatGPT 在提供合格病患資訊方面的潛力：以風濕病學中補充和替代醫學（CAM）調查為基礎的結構化分析嘗試。 Z Rheumatol 2024-07-10

研究發現ChatGPT在回答開放性問題上表現不錯，但對於風濕疾病的替代醫學資訊則缺乏科學支持。問題的提法影響了回答的品質，引導性問題可能導致不夠可靠的資訊。因此，對於風濕疾病的替代醫學資訊，建議不要完全依賴ChatGPT，因為其回答缺乏科學根據。 PubMed DOI

Vignette-based comparative analysis of ChatGPT and specialist treatment decisions for rheumatic patients: results of the Rheum2Guide study.
基於案例的 ChatGPT 與專科治療決策在風濕病患者中的比較分析：Rheum2Guide 研究結果。 Rheumatol Int 2024-08-10

這項研究探討大型語言模型（LLMs），如ChatGPT-3.5和GPT-4，在風濕性疾病治療計畫的潛力，並與臨床風濕病學委員會（RB）的計畫進行比較。結果顯示，68.8%的案例中RB的計畫更受偏好，GPT-4和GPT-3.5則分別為16.3%和15.0%。GPT-4在一線治療中較受青睞，且與RB的計畫在安全性上無顯著差異。雖然LLMs生成的計畫安全且高品質，但RB的計畫在遵循指導方針和整體品質上表現更佳，建議需進一步研究以提升LLMs的臨床應用。 PubMed DOI

Assessing the ChatGPT aptitude: A competent and effective Dermatology doctor?
評估 ChatGPT 的能力：一位稱職且有效的皮膚科醫生？ Heliyon 2024-09-25

這項研究評估了ChatGPT 3.5和4.0在診斷和管理異位性皮膚炎及自體免疫性水泡性皮膚病的效果。五位皮膚科醫生針對50份問卷的回應進行評估，發現兩個版本對異位性皮膚炎的理解不錯，且4.0表現優於3.5，但都無法超越資深醫療專業人員的診斷能力。在診斷特定的自體免疫性水泡性皮膚病案例時，兩個版本的表現都不夠精確。總體來看，雖然ChatGPT在異位性皮膚炎的基本詢問上表現良好，但在AIBD的診斷上仍有待加強。 PubMed DOI

Comparative performance of artificial intelligence models in rheumatology board-level questions: evaluating Google Gemini and ChatGPT-4o.
人工智慧模型在風濕病學考試問題中的比較表現：評估 Google Gemini 和 ChatGPT-4o。 Clin Rheumatol 2024-09-28

這項研究評估了兩個人工智慧模型，ChatGPT-4o 和 Google Gemini，在風濕病學考試問題上的表現。分析了420個問題，結果顯示ChatGPT-4o的準確率為86.9%，遠高於Google Gemini的60.2%。重複詢問相同問題時，ChatGPT-4o的準確率維持在86.7%。研究指出，ChatGPT-4o在基礎與臨床科學、骨關節炎及類風濕性關節炎方面表現優異，顯示人工智慧在臨床環境中的潛力，未來應探索更多真實臨床情境。 PubMed DOI

Is ChatGPT a reliable tool in Autoimmune Hepatitis?
ChatGPT 在自體免疫性肝炎中的可靠性如何？ Am J Gastroenterol 2024-10-31

這項研究評估了ChatGPT-4在提供自體免疫性肝炎患者個人化諮詢的效果，分析了其對12個問題的回應。結果顯示，準確性中位數得分為5（滿分6分），但完整性和安全性得分較低。特別是診斷後的追蹤問題表現不佳，顯示出低準確性和完整性。專家對聊天機器人的評價共識有限，顯示出其回應的可靠性不足。研究建議需進一步探討如何有效整合AI聊天機器人於臨床諮詢中。 PubMed DOI

Large language models' performances regarding common patient questions about osteoarthritis: A comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Perplexity.
大型語言模型在關於骨關節炎的常見病人問題上的表現：ChatGPT-3.5、ChatGPT-4.0 和 Perplexity 的比較分析。 J Sport Health Sci 2024-11-29

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎（OA）相關問題的準確性。研究將25個問題分為六個主題，並由三位骨科專家進行評分。結果顯示，ChatGPT-4.0的表現最佳，64%的回答被評為「優秀」，而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高，但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力，特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

Evaluation of the Reliability of ChatGPT to Provide Guidance on Recombinant Zoster Vaccination for Patients With Rheumatic and Musculoskeletal Diseases.
評估 ChatGPT 在提供風濕性及肌肉骨骼疾病患者接種重組帶狀皰疹疫苗指導的可靠性。 J Clin Rheumatol 2025-01-15

這項研究評估了ChatGPT在回答有關重組帶狀疱疹疫苗（RZV）對風濕性和肌肉骨骼疾病患者的問題時的準確性和完整性。研究使用20個基於CDC、ACIP和ACR指導方針的提示，結果顯示ChatGPT的平均準確性得分為4.04，完整性得分為2.3。雖然表現不錯，但研究強調需謹慎對待潛在的錯誤資訊，並強調驗證大型語言模型作為健康資訊來源的重要性。 PubMed DOI

Ability of ChatGPT to Replace Doctors in Patient Education: Cross-Sectional Comparative Analysis of Inflammatory Bowel Disease.
ChatGPT 在病人教育中取代醫生的能力：炎症性腸病的橫斷面比較分析。 J Med Internet Res 2025-03-31

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現，特別針對炎症性腸病（IBD），並與專科醫生的回應進行比較。結果顯示，ChatGPT的整體品質評分與專科醫生相似，且在信息完整性上有明顯優勢。雖然準確性無顯著差異，但在患者和醫生共同回應時，ChatGPT表現較差。研究建議在健康信息創建和評估中，應納入患者的參與，以提升質量和相關性。 PubMed DOI

Evaluating ChatGPT-4's correctness in patient-focused informing and awareness for atrial fibrillation.
評估 ChatGPT-4 在心房顫動患者導向資訊與意識方面的正確性。 Heart Rhythm O2 2025-04-14

這項研究評估了OpenAI的ChatGPT-4在提供心房顫動相關資訊的準確性。研究使用108個結構化問題，涵蓋治療選擇和生活方式調整，由三位心臟科醫師根據準確性、清晰度和臨床相關性評估其回答。結果顯示，ChatGPT-4在「生活方式調整」和「日常生活與管理」表現良好，但在較複雜的問題上則表現不佳。整體而言，雖然它在簡單主題上有潛力，但對於需要深入臨床見解的複雜問題仍有局限。 PubMed DOI

原始文章

站上相關主題文章列表