Vignette-based comparative analysis of ChatGPT and specialist treatment decisions for rheumatic patients: results of the Rheum2Guide study.
基於案例的 ChatGPT 與專科治療決策在風濕病患者中的比較分析：Rheum2Guide 研究結果。 Rheumatol Int 2024-08-10

這項研究探討大型語言模型（LLMs），如ChatGPT-3.5和GPT-4，在風濕性疾病治療計畫的潛力，並與臨床風濕病學委員會（RB）的計畫進行比較。結果顯示，68.8%的案例中RB的計畫更受偏好，GPT-4和GPT-3.5則分別為16.3%和15.0%。GPT-4在一線治療中較受青睞，且與RB的計畫在安全性上無顯著差異。雖然LLMs生成的計畫安全且高品質，但RB的計畫在遵循指導方針和整體品質上表現更佳，建議需進一步研究以提升LLMs的臨床應用。 PubMed DOI

ChatGPT is a comprehensive education tool for patients with patellar tendinopathy, but it currently lacks accuracy and readability.
ChatGPT 是一個針對髕腱病患者的綜合教育工具，但目前在準確性和可讀性方面存在不足。 Musculoskelet Sci Pract 2025-02-03

生成式 AI 工具如 ChatGPT 在醫療查詢中越來越受歡迎，特別是在解答髕腱病相關問題上。一項研究評估了 ChatGPT-4 的表現，收集了 48 個問題並由專家評估其回應。結果顯示，只有 33% 的回應準確，但 75% 是全面的。治療相關問題的準確率僅 17%。回應的可讀性達到大學水平，且可理解性良好（83%），但可行性較低（60%）。總體而言，ChatGPT-4 提供了豐富資訊，但準確性不足，且對於低學歷者不易理解。 PubMed DOI

ChatGPT-3.5 and -4.0 Do Not Reliably Create Readable Patient Education Materials for Common Orthopaedic Upper- and Lower-Extremity Conditions.
ChatGPT-3.5 和 -4.0 在創建常見骨科上下肢疾病的可讀患者教育材料方面不可靠。 Arthrosc Sports Med Rehabil 2025-03-05

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在生成病人教育材料的效果，針對常見的上肢和下肢骨科疾病進行分析。結果顯示，ChatGPT-3.5的可讀性僅有2%和4%達標，而ChatGPT-4.0則有54%達標，顯示出明顯的進步。雖然ChatGPT-4.0在可讀性上表現優異，但兩者仍被視為不可靠，無法完全取代傳統病人教育方式，應作為醫療提供者的輔助工具。 PubMed DOI

Assessing the Usability of ChatGPT Responses Compared to Other Online Information in Hand Surgery.
評估 ChatGPT 回應的可用性與其他線上資訊在手外科中的比較。 Hand (N Y) 2025-04-12

這項研究評估了手部手術相關的線上醫療資訊，並比較了Google、ChatGPT-3.5和ChatGPT-4.0的回應。研究針對腕隧道症候群、網球肘和富血小板血漿用於拇指關節炎三個問題進行分析。主要發現包括： 1. **可讀性**：Google的回應較易讀，平均在八年級水平，而ChatGPT則在大學二年級水平。低共識主題的可讀性普遍較差。 2. **可靠性與準確性**：ChatGPT-4的可靠性與3.5相似，但低共識主題的可讀性較低，準確性差異不大。 3. **覆蓋範圍**：ChatGPT-4和Google在疾病原因和程序細節的覆蓋上有所不同，但在解剖學和病理生理學上相似。總結來說，雖然ChatGPT能提供可靠的醫療資訊，但可讀性較差，醫療提供者需注意其局限性。 PubMed DOI

Assessment of ChatGPT's adherence to EULAR diagnostic criteria and therapeutic protocols for rheumatoid arthritis at two distinct time points, 14 days apart, utilizing binary and multiple-choice inquiries.
ChatGPT 在兩個不同時間點（間隔 14 天）對於類風濕性關節炎 EULAR 診斷標準與治療指引的遵循性評估：採用二元與多選題進行分析 Clin Rheumatol 2025-04-22

這項研究發現，ChatGPT-4在依循EULAR類風濕性關節炎指引時表現不錯，尤其是是非題答對率更高。經兩位風濕科醫師評分，答案正確且一致性高，部分答案在回饋後還有進步。顯示ChatGPT-4有潛力成為RA臨床決策的輔助工具，有助提升風濕科的循證與個人化醫療。 PubMed DOI

Are Large Language Model-Based Chatbots Effective in Providing Reliable Medical Advice for Achilles Tendinopathy? An International Multispecialist Evaluation.
以大型語言模型為基礎的聊天機器人在提供可靠的 Achilles Tendinopathy 醫療建議方面是否有效？國際多專科評估 Orthop J Sports Med 2025-05-05

三款主流聊天機器人（ChatGPT 4.0、Claude 2、Gemini）回答阿基里斯肌腱病變相關問題，ChatGPT 4.0「優秀」答案較多，但總分差不多。專家評分有落差，顯示標準化評估還不夠。雖然這些AI能提供不錯的醫療資訊，但臨床應用時還是要小心。 PubMed DOI

Evolution of patient education materials from large-language artificial intelligence models on complex regional pain syndrome: are patients learning?
大型語言人工智慧模型生成之複雜性局部疼痛症候群（Complex Regional Pain Syndrome）病患教育資料的演變：病患真的有學到嗎？ Proc (Bayl Univ Med Cent) 2025-05-08

這項研究發現，ChatGPT提供的複雜性局部疼痛症候群資訊比Google更詳細、內容更廣，但閱讀起來較困難。雖然ChatGPT在病患衛教上很有潛力，但在普及應用前，還需要解決易讀性和倫理等問題。 PubMed DOI

Assessing ChatGPT responses to patient questions on epidural steroid injections: A comparative study of general vs specific queries.
ChatGPT 回應病患有關硬脊膜外類固醇注射問題之評估：一般性與特定性提問的比較研究 Interv Pain Med 2025-06-13

這項研究發現，ChatGPT在回答硬脊膜外類固醇注射相關問題時，整體來說資訊正確且清楚，尤其是針對一般性問題。不過，AI在展現同理心方面表現有限，有時也會離題。未來若要在臨床上廣泛應用，還需要更精確的提問設計和更多研究來確保病人安全。 PubMed DOI

Assessing Accuracy of Chat Generative Pre-Trained Transformer's Responses to Common Patient Questions Regarding Congenital Upper Limb Differences.
Chat Generative Pre-Trained Transformer 回應常見先天性上肢差異患者問題之準確性評估 J Hand Surg Glob Online 2025-06-16

這項研究發現，ChatGPT-4.0在回答先天性上肢差異常見問題時，大約一半答案正確且清楚，但有8%內容不夠好或可能誤導。回答內容深度和完整性不一，且很少建議諮詢專業醫師。總結來說，ChatGPT提供的資訊大致可靠，但不夠全面或個人化，建議病人衛教時要小心使用。 PubMed DOI

Evaluating the readability, quality, and reliability of responses generated by ChatGPT, Gemini, and Perplexity on the most commonly asked questions about Ankylosing spondylitis.
ChatGPT、Gemini 與 Perplexity 回答最常見 Ankylosing spondylitis 問題之可讀性、品質與可靠性評估 PLoS One 2025-06-18

這項研究比較ChatGPT、Perplexity和Gemini三款AI聊天機器人，針對僵直性脊椎炎的回答。結果發現，三者的答案都超過國中六年級的閱讀難度，一般人較難看懂。Perplexity的資訊最可靠、品質也最好。不過，整體來說，這些AI在可讀性、正確性和品質上還有進步空間，未來仍需加強與監督。 PubMed DOI

原始文章

站上相關主題文章列表