Evaluating AI-generated patient education materials for spinal surgeries: Comparative analysis of readability and DISCERN quality across ChatGPT and deepseek models.

評估 AI 生成的脊椎手術病患教育材料：ChatGPT 與 deepseek 模型在可讀性和 DISCERN 質量上的比較分析。

<think> 嗯，我现在要分析这篇关于AI生成患者教育材料的研究。首先，标题提到评估了ChatGPT和DeepSeek模型在脊柱手术中的可读性和DISCERN质量。摘要里说，他们评估了四个模型，使用DISCERN评分和Flesch-Kincaid指数。研究目的很明确，是评估AI生成的患者教育材料的可读性和质量。假设应该是这些AI模型在生成医疗信息时，可能在可读性和质量上有差异，特别是在处理复杂的术语时。他们可能假设有些模型比其他模型更好。方法方面，他们用了DISCERN评分和Flesch-Kincaid指数，这些都是标准工具，挺合理的。但只测试了脊柱手术，可能不够全面，而且没有真实患者反馈，这可能影响结果的普适性。结果显示，DeepSeek-R1在可读性上最好，FKGL分数在7.2到9.0之间，而ChatGPT-o3则差很多，分数超过10.4。DISCERN评分都低于60，属于“公平”级，主要是因为引用不足。这说明AI模型在质量上还有提升空间，特别是在引用和个性化方面。关于局限性，研究提到了AI模型快速发展，可能会让结果过时，仅限于脊柱手术，以及没有患者反馈，这些都是明显的限制。未来的研究应该考虑多模态和互动方法，并纳入患者意见，确保信息准确且易于理解。总体来说，这个研究有助于确定哪些AI模型更适合生成患者教育材料，但也指出了需要改进的地方。未来研究需要扩大范围，增加反馈机制，以提升AI生成内容的质量和可读性。 </think> ### 1. 研究目的與假設這項研究的主要目的是評估四種自然語言處理模型（ChatGPT-4o、ChatGPT-o3 mini、DeepSeek-V3和DeepSeek-R1）在生成脊柱手術患者教育材料方面的可讀性和質量。研究聚焦在三種常見的脊柱手術：腰椎切除術、脊柱融合術和分解性脫壓切除術。研究假設這些AI模型在生成醫療資訊時，可能存在差異，特別是在可讀性和質量方面。具體來說，研究假設DeepSeek-R1和ChatGPT-4o可能比其他模型更優，特別是在可讀性和質量上。 ### 2. 方法與設計研究採用了DISCERN評分和Flesch-Kincaid指數來評估AI生成內容的質量和可讀性。DISCERN評分是一種標準化工具，用于評估健康資訊的質量，而Flesch-Kincaid指數則用于衡量可讀性。這些方法合理，因為它們提供了客觀的評估標準。然而，研究僅限於脊柱手術，未考慮其他醫療領域，且未涉及真實患者的反饋，這可能限制了研究的普適性。此外，研究未探討AI模型在生成內容時的潛在偏見或錯誤信息。 ### 3. 數據解釋與結果研究結果顯示，DeepSeek-R1在可讀性方面表現最佳，Flesch-Kincaid Grade Level（FKGL）評分在7.2到9.0之間，緊隨其後的是ChatGPT-4o。然而，ChatGPT-o3的可讀性最差，FKGL評分超過10.4。這些結果支撐了研究假設，即DeepSeek-R1和ChatGPT-4o在可讀性上更優於其他模型。然而，所有模型的DISCERN評分均低於60，表明其質量評級為“公平”，主要原因在於缺乏足夠的引用參考資料。這一結果挑戰了研究假設，即AI模型在質量上可能存在顯著差異，實際上所有模型在質量上均未達到“良好”或“優秀”水平。 ### 4. 局限性與偏見研究的主要局限性在於其範圍限制，僅關注脊柱手術，並未考慮其他醫療領域。此外，研究未涉及真實患者的反饋，這可能影響結果的普適性和長期適用性。另一個潛在的偏見在於，研究僅評估了AI模型生成內容的可讀性和質量，而未探討其準確性或潛在的錯誤信息。這可能導致研究結果偏向於評估模型的語言生成能力，而非其醫療內容的準確性。 ### 5. 臨床及未來研究意涵研究結果對臨床應用具有重要意義。DeepSeek-R1和ChatGPT-4o生成的內容更具可讀性，可能更適合用於患者教育，從而提高患者的參與度、減少焦慮並改善手術結果。未來研究應該探索互動式和多模態的AI生成方法，並納入患者反饋，以確保AI生成的健康資訊準確、可訪問並促進知情的醫療決策。 ### 6. 其他觀點除了研究提到的結果，還可以從另一個角度看待這些發現。例如，AI模型在生成醫療內容時，可能會因為其演算法和訓練資料的偏見而產生錯誤或不準確的信息。因此，未來研究應該更加關注AI模型在醫療領域的準確性和可靠性，而不僅僅是可讀性和質量。此外，研究還可以探討AI模型在不同語言和文化背景下的表現，以確保其生成內容在全球範圍內的適用性。總結來說，這項研究為評估AI模型在生成患者教育材料方面的能力提供了有價值的洞見。然而，未來研究需要進一步探討AI模型在醫療領域的準確性、可靠性和文化適應性，以確保其生成內容不僅可讀且準確，並能滿足不同患者的需求。