Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2025-01-28

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。分析了30個問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，風險因素則最不準確。可讀性平均得分為50.94，顯示文本相對困難。此外，70%-100%的回答都有健康建議的免責聲明。總體而言，雖然LLM聊天機器人有潛力，但準確性和可讀性差異可能影響病人理解。 PubMed DOI

Comparing ChatGPT 3.5 and 4.0 in Low Back Pain Patient Education: Addressing Strengths Limitations, and Psychosocial Challenges.
比較 ChatGPT 3.5 和 4.0 在下背痛患者教育中的應用：應對優勢、限制及心理社會挑戰。 World Neurosurg 2025-02-14

這項研究評估了AI工具，特別是ChatGPT 3.5和4.0，在提供低背痛患者教育的效果。結果顯示，ChatGPT 4.0在回應質量上明顯優於3.5，得分分別為1.03和2.07，且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳，顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

ChatGPT-3.5 and -4.0 Do Not Reliably Create Readable Patient Education Materials for Common Orthopaedic Upper- and Lower-Extremity Conditions.
ChatGPT-3.5 和 -4.0 在創建常見骨科上下肢疾病的可讀患者教育材料方面不可靠。 Arthrosc Sports Med Rehabil 2025-03-05

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在生成病人教育材料的效果，針對常見的上肢和下肢骨科疾病進行分析。結果顯示，ChatGPT-3.5的可讀性僅有2%和4%達標，而ChatGPT-4.0則有54%達標，顯示出明顯的進步。雖然ChatGPT-4.0在可讀性上表現優異，但兩者仍被視為不可靠，無法完全取代傳統病人教育方式，應作為醫療提供者的輔助工具。 PubMed DOI

Evaluating AI-generated patient education materials for spinal surgeries: Comparative analysis of readability and DISCERN quality across ChatGPT and deepseek models.
評估 AI 生成的脊椎手術病患教育材料：ChatGPT 與 deepseek 模型在可讀性和 DISCERN 質量上的比較分析。 Int J Med Inform 2025-03-19

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性，主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示，DeepSeek-R1 的可讀性最佳，Flesch-Kincaid 分數介於 7.2 到 9.0 之間，而 ChatGPT-o3 的可讀性最低，超過 10.4。所有模型的資訊品質均低於 60，顯示出「公平」的品質，主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性，未來應整合互動元素和病患反饋，以提升準確性和可及性。 PubMed DOI

Retrieval augmented generation for 10 large language models and its generalizability in assessing medical fitness.
10 種大型語言模型的檢索增強生成及其在評估醫療適應性中的普遍性。 NPJ Digit Med 2025-04-04

這項研究探討了基於GPT-4的檢索增強生成（RAG）模型在術前評估中的有效性。研究測試了十個大型語言模型，生成超過3,200個回應，並與近450個人類答案進行比較。結果顯示，使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%，明顯高於人類的86.6%，且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI

Generative Artificial Intelligence and Musculoskeletal Health Care.
生成式人工智慧與肌肉骨骼健康照護 HSS J 2025-04-29

生成式AI能根據學到的知識，創造新穎且逼真的資料，對提升肌肉骨骼醫療影像品質、自動化紀錄、手術規劃和個人化溝通很有幫助。不過，目前臨床應用還有幻覺、偏誤、倫理和透明度等挑戰需克服。 PubMed DOI

Comparing Artificial Intelligence-Generated and Clinician-Created Personalized Self-Management Guidance for Patients With Knee Osteoarthritis: Blinded Observational Study.
人工智慧生成與臨床醫師制定之膝關節骨關節炎患者個人化自我管理指引的比較：盲態觀察性研究 J Med Internet Res 2025-05-07

這項研究發現，GPT-4在為膝關節骨關節炎患者產出個人化自我管理衛教內容時，表現比臨床醫師更快、更完整且更精確。不過，GPT-4有時用詞太複雜，對健康識讀較低的患者不夠友善。未來建議AI與醫師共同審查，才能兼顧品質與安全。 PubMed DOI

Enhancing treatment decision-making for low back pain: a novel framework integrating large language models with retrieval-augmented generation technology.
提升下背痛治療決策：結合大型語言模型與檢索增強生成技術的新穎架構 Front Med (Lausanne) 2025-05-29

這項研究打造了專為慢性下背痛設計的臨床決策支援系統，結合大型語言模型、RAG和LtM提示，讓AI更貼近專家思考。客製化的CLBP-GPT在準確性、相關性等表現都勝過現有主流模型，能提供更精確、完整的診斷與治療建議，有助提升患者的個人化照護品質。 PubMed DOI

The Role of Artificial Intelligence Large Language Models in Personalized Rehabilitation Programs for Knee Osteoarthritis: An Observational Study.
人工智慧大型語言模型在膝關節骨關節炎個人化復健計畫中的角色：一項觀察性研究 J Med Syst 2025-06-03

這項研究發現，ChatGPT-4o 和 Gemini Advanced 在設計膝蓋骨關節炎復健計畫時，和物理治療師的整體一致性不錯，但在運動細節上還有待加強。ChatGPT-4o 表現較佳，尤其在進階階段。不過，這些 AI 目前還缺乏臨床判斷和細節指導，臨床應用前仍需專家把關與優化。 PubMed DOI

Generative AI/LLMs for Plain Language Medical Information for Patients, Caregivers and General Public: Opportunities, Risks and Ethics.
用於病患、照護者與一般大眾之淺顯醫療資訊的生成式AI/LLMs：機會、風險與倫理 Patient Prefer Adherence 2025-08-07

生成式AI和大型語言模型越來越多人用來查醫療資訊，雖然有助提升健康知識，但也可能出現錯誤、過度簡化或隱私等問題。現有研究多著重正確性，較少納入病人實際經驗。未來應加強透明度、監督，並讓醫療人員和使用者參與回饋，同時加強大眾教育。 PubMed DOI

原始文章

站上相關主題文章列表