Evaluating the readability, quality, and reliability of responses generated by ChatGPT, Gemini, and Perplexity on the most commonly asked questions about Ankylosing spondylitis.

ChatGPT、Gemini 與 Perplexity 回答最常見 Ankylosing spondylitis 問題之可讀性、品質與可靠性評估

<think> 嗯，好的，我需要分析这个关于评估ChatGPT、Gemini和Perplexity在强直性脊柱炎问题上的可读性、质量和可靠性的研究。首先，我得仔细阅读标题和摘要，理解研究的目的和假设。研究主要比较了这三个AI聊天机器人在回答常见问题时的表现，特别是在可读性、准确性和可靠性方面。接下来，我要考虑研究的目的。研究者是想评估这些AI工具是否适合作为患者获取医疗信息的来源。他们假设这些聊天机器人在回答AS相关问题时，可能存在可读性过高、信息质量不一致的问题。可能他们认为Perplexity可能表现更好，因为它专注于提供基于网络搜索的信息。然后，研究方法方面，他们使用了Google Trends选取25个最常见的问题，分别询问三个AI，然后通过多个指标评估可读性、质量和可靠性。这种方法有系统性，但可能缺乏实地测试，或者未能涵盖所有可能的信息质量问题。在数据解释部分，结果显示Perplexity在质量和可靠性上得分更高，这可能支持他们的假设。而可读性普遍较高，可能超出了推荐水平，这可能意味着对有些患者来说，信息过于复杂。关于局限性，研究可能没有考虑到不同AI模型的更新情况，或者样本数量是否足够大。此外，患者的教育水平和阅读习惯可能影响对可读性的感知，这些因素在研究中可能未被充分考虑。临床意义方面，研究指出AI聊天机器人在提供医疗信息时需要更好的审核机制，以确保信息的准确性和可读性。未来的研究可能需要更全面的评估，包括用户反馈和实际应用效果。最后，可能存在其他观点，比如不同AI在处理特定类型问题时的差异，或者用户对信息的主观感受。这些因素在当前研究中可能未被探讨，但对于全面评估AI工具的效果很重要。 </think> ### 1. 研究目的與假設這項研究旨在比較ChatGPT、Gemini和Perplexity三種基於人工智慧（AI）的聊天機器人在回答與強直性脊柱炎（Ankylosing spondylitis, AS）相關問題時的可讀性、資訊準確性和可靠性。研究假設這些AI聊天機器人在回答AS相關問題時，可能存在可讀性過高、資訊質量不一致或可靠性不足的問題。具體來說，研究假設Perplexity可能在資訊品質和可靠性上表現較好，因為它是一個基於網絡搜尋的工具，而ChatGPT和Gemini則可能在可讀性或資訊準確性上存在一些限制。 ### 2. 方法與設計研究採用的方法是通過Google Trends選取與AS相關的25個最常見的關鍵詞，將這些關鍵詞分別輸入ChatGPT、Gemini和Perplexity三種AI聊天機器人，然後評估其回答的可讀性、資訊品質和可靠性。可讀性評估使用了Simple Gunning Fog（GFOG）、Flesch Reading Ease Score（FRES）和Measure of Gobbledygook（SMOG）等指標；資訊品質評估使用了Ensuring Quality Information for Patients（EQIP）和Global Quality Score（GQS）評分；可靠性評估則使用了修改後的DISCERN和Journal of American Medical Association（JAMA）量表。這種方法的優點在於系統性地評估了多個AI聊天機器人的表現，且使用了多種指標來全面衡量其可讀性、資訊品質和可靠性。然而，研究方法也存在一些潛在缺陷。例如，研究僅限於評估基於Google Trends的25個關鍵詞，可能未能涵蓋所有與AS相關的問題。此外，研究未明確說明評估者的背景和評估過程是否存在主觀偏差。 ### 3. 數據解釋與結果研究結果顯示，三種AI聊天機器人生成的回答在可讀性上均超過了推薦的6年級閱讀水平，並且在可讀性上存在統計學顯著差異（p < 0.001）。在EQIP、JAMA、mDISCERN和GQS評估中，Perplexity在資訊品質和可靠性上得分顯著高於其他兩種聊天機器人（p < 0.05）。這些結果支撐了研究假設，即Perplexity在資訊品質和可靠性上表現較好。然而，研究也指出，AI聊天機器人生成的回答在可讀性上普遍超過了推薦水平，這可能意味著某些回答對於閱讀能力較低的患者來說可能不夠清晰。此外，某些評估指標的得分較低，引發了對AI聊天機器人在醫療資訊提供上的可靠性和品質的擔憂。 ### 4. 局限性與偏見研究存在一些局限性。首先，研究僅限於評估基於Google Trends的25個關鍵詞，可能未能涵蓋所有與AS相關的問題。其次，研究未明確說明評估者的背景和評估過程是否存在主觀偏差。此外，研究未考慮到AI聊天機器人的更新迭代對其表現的影響。例如，ChatGPT和Gemini可能在研究進行後已經進行了更新，從而改善了其可讀性和資訊品質。此外，研究可能存在一些未考慮到的偏見。例如，評估者的專業背景和對AS的了解程度可能影響對回答的評估。此外，研究未考慮到不同AI聊天機器人在生成回答時的演算法差異，這可能影響其回答的可讀性和資訊品質。 ### 5. 臨床及未來研究意涵這項研究對臨床應用和未來研究具有重要意涵。首先，研究結果表明，Perplexity在資訊品質和可靠性上表現較好，可能可以作為醫療資訊提供的可靠工具。然而，研究也指出，AI聊天機器人生成的回答在可讀性上普遍超過了推薦水平，這可能對於閱讀能力較低的患者來說不夠清晰。因此，未來的AI聊天機器人可能需要在可讀性和資訊品質上進行更好的平衡。此外，研究結果表明，AI聊天機器人在提供醫療資訊時需要有一種審計機制，以確保其回答的可靠性和品質。未來的研究可以進一步探討如何改善AI聊天機器人在醫療資訊提供上的可讀性、資訊品質和可靠性。 ### 6. 其他觀點除了研究的主要發現，還存在一些其他可能的解釋和觀點。例如，Perplexity的優勢可能不僅僅在於其演算法的差異，还可能在于其基於網絡搜尋的特性，使得其回答更為準確和可靠。然而，其他AI聊天機器人如ChatGPT和Gemini可能在未來的更新中改善其表現，從而在資訊品質和可靠性上趕上Perplexity。此外，研究的結果可能受到評估者主觀判斷的影響。例如，評估者可能對某些AI聊天機器人的回答有既有的偏見，這可能影響其評估結果。因此，未來的研究可以考慮使用更多的評估者和更客觀的評估指標，以減少主觀偏差的影響。總結來說，這項研究為評估AI聊天機器人在醫療資訊提供上的可讀性、資訊品質和可靠性提供了重要的見解。未來的研究可以進一步探討如何改善AI聊天機器人在醫療資訊提供上的表現，以更好地滿足患者的需求。