Vignette-based comparative analysis of ChatGPT and specialist treatment decisions for rheumatic patients: results of the Rheum2Guide study.
基於案例的 ChatGPT 與專科治療決策在風濕病患者中的比較分析：Rheum2Guide 研究結果。 Rheumatol Int 2024-08-10

這項研究探討大型語言模型（LLMs），如ChatGPT-3.5和GPT-4，在風濕性疾病治療計畫的潛力，並與臨床風濕病學委員會（RB）的計畫進行比較。結果顯示，68.8%的案例中RB的計畫更受偏好，GPT-4和GPT-3.5則分別為16.3%和15.0%。GPT-4在一線治療中較受青睞，且與RB的計畫在安全性上無顯著差異。雖然LLMs生成的計畫安全且高品質，但RB的計畫在遵循指導方針和整體品質上表現更佳，建議需進一步研究以提升LLMs的臨床應用。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2025-01-28

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。分析了30個問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，風險因素則最不準確。可讀性平均得分為50.94，顯示文本相對困難。此外，70%-100%的回答都有健康建議的免責聲明。總體而言，雖然LLM聊天機器人有潛力，但準確性和可讀性差異可能影響病人理解。 PubMed DOI

Comparing ChatGPT 3.5 and 4.0 in Low Back Pain Patient Education: Addressing Strengths Limitations, and Psychosocial Challenges.
比較 ChatGPT 3.5 和 4.0 在下背痛患者教育中的應用：應對優勢、限制及心理社會挑戰。 World Neurosurg 2025-02-14

這項研究評估了AI工具，特別是ChatGPT 3.5和4.0，在提供低背痛患者教育的效果。結果顯示，ChatGPT 4.0在回應質量上明顯優於3.5，得分分別為1.03和2.07，且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳，顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

Advancing the prediction and understanding of placebo responses in chronic back pain using large language models.
利用大型語言模型推進對慢性背痛中安慰劑反應的預測和理解。 medRxiv 2025-02-20

這項研究探討如何利用大型語言模型（LLMs）預測慢性下背痛患者的安慰劑反應者，透過分析患者的訪談內容。安慰劑效應是指患者因期待而從無效治療中獲得疼痛緩解，了解影響因素對非藥物疼痛管理很重要。研究者重新分析了兩項臨床試驗的數據，開發的預測模型在新數據上的準確率達74%。結果顯示，LLMs能揭示與安慰劑反應相關的心理社會因素，並識別情緒相關的語言模式，為理解治療結果中的生物心理社會因素提供新視角。 PubMed DOI

Enhancing Large Language Models for Clinical Decision Support by Incorporating Clinical Practice Guidelines.
通過納入臨床實踐指導增強大型語言模型在臨床決策支持中的應用。 Proc (IEEE Int Conf Healthc Inform) 2025-03-17

這項研究探討如何利用臨床實踐指導（CPGs）來強化大型語言模型（LLMs），以改善針對 COVID-19 的門診治療決策。研究開發了三種整合 CPGs 的方法：二元決策樹、程式輔助圖形構建和思考鏈少量提示，並以零樣本提示作為基準。結果顯示，所有 LLMs 在有 CPG 增強的情況下表現優於零樣本提示，特別是二元決策樹在自動評估中表現最佳。這顯示出帶有 CPG 的 LLMs 能提供更準確的治療建議，未來應用潛力廣泛。 PubMed DOI

Exploring the Capacity of Large Language Models to Assess the Chronic Pain Experience: Algorithm Development and Validation.
探索大型語言模型評估慢性疼痛經驗的能力：演算法開發與驗證。 J Med Internet Res 2025-03-31

慢性疼痛影響超過20%的人口，對個人和經濟造成重大影響。有效的疼痛評估工具對改善患者生活至關重要。這項研究探討使用大型語言模型（如GPT-4）來評估患者的書面敘述（WNs）。分析43份纖維肌痛症患者的WNs後，結果顯示GPT-4的評估與專家評分高度一致，且專家認為其評分和解釋通常合適。這表明GPT-4能有效增強WNs的評估，為慢性疼痛管理提供新方法。 PubMed DOI

Utilizing large language models for gastroenterology research: a conceptual framework.
利用大型語言模型進行胃腸病學研究：一個概念框架。 Therap Adv Gastroenterol 2025-04-02

大型語言模型（LLMs）在醫療保健，特別是胃腸科，展現出提升臨床決策、研究及病人管理的潛力。為了安全有效地應用這些模型，必須解決偏見、幻覺及法規遵循等挑戰。本文提出一個結構化框架，針對C型肝炎治療進行案例研究，涵蓋臨床目標定義、多學科團隊組建、數據準備、模型選擇與微調等步驟。此外，還強調遵循HIPAA和GDPR等法規，以確保負責任的AI應用。未來研究應聚焦於多機構驗證及AI輔助的臨床試驗。 PubMed DOI

Comparing Artificial Intelligence-Generated and Clinician-Created Personalized Self-Management Guidance for Patients With Knee Osteoarthritis: Blinded Observational Study.
人工智慧生成與臨床醫師制定之膝關節骨關節炎患者個人化自我管理指引的比較：盲態觀察性研究 J Med Internet Res 2025-05-07

這項研究發現，GPT-4在為膝關節骨關節炎患者產出個人化自我管理衛教內容時，表現比臨床醫師更快、更完整且更精確。不過，GPT-4有時用詞太複雜，對健康識讀較低的患者不夠友善。未來建議AI與醫師共同審查，才能兼顧品質與安全。 PubMed DOI

The Role of Artificial Intelligence Large Language Models in Personalized Rehabilitation Programs for Knee Osteoarthritis: An Observational Study.
人工智慧大型語言模型在膝關節骨關節炎個人化復健計畫中的角色：一項觀察性研究 J Med Syst 2025-06-03

這項研究發現，ChatGPT-4o 和 Gemini Advanced 在設計膝蓋骨關節炎復健計畫時，和物理治療師的整體一致性不錯，但在運動細節上還有待加強。ChatGPT-4o 表現較佳，尤其在進階階段。不過，這些 AI 目前還缺乏臨床判斷和細節指導，臨床應用前仍需專家把關與優化。 PubMed DOI

Generative AI Is Not Ready for Clinical Use in Patient Education for Lower Back Pain Patients, Even With Retrieval-Augmented Generation.
生成式 AI 尚未適用於下背痛患者的臨床衛教，即使結合檢索增強生成（Retrieval-Augmented Generation）亦然 AMIA Jt Summits Transl Sci Proc 2025-06-12

這項研究發現，結合RAG技術的AI模型能產生比一般AI更優質、可讀性更高且重複性較低的下背痛衛教資料，但內容仍未達臨床標準。AI在提升衛教品質上有潛力，但還需進一步改進，才能真正應用於臨床。 PubMed

原始文章

站上相關主題文章列表