Evaluating AI-Generated Patient Education Guides: A Comparative Study of ChatGPT and Deepseek.

AI 生成病患衛教指南之評估：ChatGPT 與 Deepseek 的比較研究

<think> 嗯，首先我要理解这个研究的目的。看摘要，研究主要是比较ChatGPT和DeepSeek生成的患者教育指南，针对四种慢性病。研究假设可能是这两种AI工具在某些方面有差异，或者需要评估它们是否符合临床应用的标准。研究方法是使用标准化的提示，生成教育材料，然后评估可读性、原创性、质量和适用性。使用了跨-sectional研究设计，这可能限制了结果的普适性，因为数据来自特定时间点，无法反映长期变化。结果显示，两种工具在字数、句子数、可读性得分、可靠性和适用性方面相似，但ChatGPT的重复率更高。可读性高于推荐水平，说明内容可能太复杂，患者可能难以理解。重复率超过学术阈值，可能影响原创性。可靠性中等，理解性好，但可操作性差，意味着患者可能难以根据指南采取行动。研究的局限性包括样本量可能不足，疾病类型有限，评估标准可能存在偏差。另外，跨-sectional设计无法捕捉工具的长期效果或个体差异。在临床应用方面，研究指出AI工具作为辅助，但需人工监督。未来的研究可以探讨不同提示的优化，增加多模态内容，评估长期效果，并考虑文化差异。其他可能的观点是，AI工具可能在特定领域有更好的表现，或者不同版本的模型可能有所不同。另外，用户反馈可能对评估工具有帮助。 </think> ### 研究目的與假設該研究旨在比較兩種AI聊天機器人ChatGPT和DeepSeek生成的患者教育指南，針對癲癇、心臟衰竭、慢性阻塞性肺病（COPD）和慢性腎臟病（CKD）四種慢性疾病。研究假設這兩種工具在生成患者教育材料方面可能存在差異，且需要評估其是否符合臨床應用的標準。 ### 方法與設計研究採用跨-sectional研究設計，使用標準化的提示生成教育材料，並評估其可讀性、原創性、質量和適用性。優點是提供了對兩種AI工具的直接比較，方法簡單明了。然而，跨-sectional設計的限制在於難以捕捉長期效果，且樣本量可能不足以代表所有臨床情境。 ### 數據解釋與結果結果顯示兩種工具在大多數評估指標上相似，但ChatGPT的內容重復率較高。可讀性超過推薦水平，可能影響患者的理解。重復率過高可能影響原創性，但可靠性評分中等，理解性良好，可操作性不足。 ### 局限性與偏見研究局限於樣本量和疾病種類，評估標準可能存在偏差，且未考慮患者反饋或個體差異。 ### 臨床及未來研究意涵研究指出AI工具在臨床應用中作為輔助工具，但需人工監督。未來研究建議優化提示，增加多模態內容，評估長期效果，並考慮文化差異。 ### 其他觀點 AI工具在特定領域可能有更佳表現，不同模型版本可能有差異，且患者反饋可助於評估工具的實用性。