Assessing the readability, quality and reliability of responses produced by ChatGPT, Gemini, and Perplexity regarding most frequently asked keywords about low back pain.
評估 ChatGPT、Gemini 和 Perplexity 對於有關下背痛的最常見關鍵字所產生的回應的可讀性、質量和可靠性。 PeerJ 2025-01-27

這項研究分析了三款AI聊天機器人（ChatGPT、Perplexity和Gemini）在低背痛相關問題上的可讀性、可靠性和回應質量。研究使用25個常見搜尋關鍵字，評估這些機器人提供的資訊是否易懂且可靠。結果顯示，所有機器人的可讀性均高於六年級水平，表示資訊難以理解。Perplexity在質量評估中表現最佳，但整體而言，這些聊天機器人的回應質量和可靠性都偏低。研究建議未來應提升AI聊天機器人的資訊清晰度與質量，以更好地幫助患者。 PubMed DOI

Evaluating the Quality and Readability of Information Provided by Generative Artificial Intelligence Chatbots on Clavicle Fracture Treatment Options.
評估生成式人工智慧聊天機器人提供的鎖骨骨折治療選項資訊的質量和可讀性。 Cureus 2025-02-10

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果，包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異，但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看，這些AI模型在病患教育中表現良好，特別是Microsoft Copilot和Perplexity，適合用於提供鎖骨骨折相關資訊。 PubMed DOI

A Future of Self-Directed Patient Internet Research: Large Language Model-Based Tools Versus Standard Search Engines.
自我導向病患網路研究的未來：大型語言模型工具與標準搜尋引擎的比較。 Ann Biomed Eng 2025-03-02

這項研究評估了幾個大型語言模型（LLM）聊天機器人，包括Google、Bard、GPT-3.5和GPT-4，對於慢性健康狀況的病人教育效果。研究針對高血壓、高脂血症、糖尿病、焦慮和情緒障礙等五個常見健康問題進行評分。結果顯示，GPT-3.5和GPT-4在內容的全面性和質量上表現優於Bard和Google，但後者的回應更易讀。整體來看，這項研究建議LLM工具在健康查詢中可能比傳統搜尋引擎提供更準確的信息，適合用於病人教育。 PubMed DOI

AI Chatbots as Sources of STD Information: A Study on Reliability and Readability.
AI 聊天機器人作為性病資訊的來源：可靠性和可讀性的研究。 J Med Syst 2025-04-03

這項研究評估了四款AI聊天機器人（ChatGPT、Gemini、Perplexity和Copilot）提供的性傳播疾病資訊的可靠性和可讀性。結果顯示，Perplexity和Copilot的資訊較為可靠，但所有聊天機器人的可讀性都未達到建議的六年級標準，對健康素養較低的使用者來說過於複雜。研究強調了改善AI健康資訊準確性和可及性的必要性，以便讓更多人能理解。 PubMed DOI

Assessing the Quality and Reliability of ChatGPT's Responses to Radiotherapy-Related Patient Queries: Comparative Study With GPT-3.5 and GPT-4.
ChatGPT 回應放射治療相關病患問題的品質與可靠性評估：與 GPT-3.5 及 GPT-4 的比較研究 JMIR Cancer 2025-04-16

這項研究發現，GPT-4在回答放射治療常見問題時，比GPT-3.5表現更好，但兩者的回答對一般人來說還是太難懂，也有可能出現錯誤資訊。建議在正式用於病人前，還需要加強內容的易讀性和正確性。 PubMed DOI

Are chatbots a reliable source for patient frequently asked questions on neck masses?
頸部腫塊病人常見問題，聊天機器人是否為可靠資訊來源？ Eur Arch Otorhinolaryngol 2025-04-30

這篇研究找五位耳鼻喉科醫師評估 ChatGPT、Claude、Gemini 等大型語言模型回答成人頸部腫塊常見問題的表現。結果發現，這些模型的正確性和可靠性都很高，尤其是付費版 GPT 和 Gemini 表現最好。不過，引用指引和資源品質有落差，偶爾也會有錯誤資訊。建議把 LLMs 當作輔助工具，不能完全取代醫師專業建議。 PubMed DOI

Artificial Intelligence-generated answers to patients' questions on asthma: the AIR-Asthma study.
人工智慧生成對氣喘患者問題的回答：AIR-Asthma 研究 J Allergy Clin Immunol Pract 2025-05-09

這項研究比較了三款熱門AI聊天機器人回答氣喘管理問題的表現。ChatGPT最可靠、準確且完整，Bard則最容易懂。不過，三款機器人的答案都有落差，不能完全取代醫師建議。AI可輔助衛教，但臨床決策還是要小心使用。 PubMed DOI

Evaluation of AI-Based Chatbots in Liver Cancer Information Dissemination: A Comparative Analysis of GPT, DeepSeek, Copilot, and Gemini.
AI 聊天機器人在肝癌資訊傳播中的評估：GPT、DeepSeek、Copilot 與 Gemini 之比較分析 Oncology 2025-06-10

這項研究比較四款免費AI聊天機器人回答肝癌相關問題的表現，發現它們雖然能提供大致正確且無偏見的資訊，但在資料來源、治療細節和說明清楚度上有差異。AI回答可作為參考，但仍需專業醫師把關，不能取代醫療建議。 PubMed DOI

Evaluating the readability, quality, and reliability of responses generated by ChatGPT, Gemini, and Perplexity on the most commonly asked questions about Ankylosing spondylitis.
ChatGPT、Gemini 與 Perplexity 回答最常見 Ankylosing spondylitis 問題之可讀性、品質與可靠性評估 PLoS One 2025-06-18

這項研究比較ChatGPT、Perplexity和Gemini三款AI聊天機器人，針對僵直性脊椎炎的回答。結果發現，三者的答案都超過國中六年級的閱讀難度，一般人較難看懂。Perplexity的資訊最可靠、品質也最好。不過，整體來說，這些AI在可讀性、正確性和品質上還有進步空間，未來仍需加強與監督。 PubMed DOI

The Reliability Gap: How Traditional Search Engines Outperform Artificial Intelligence (AI) Chatbots in Rosacea Public Health Information Quality.
可靠性差距：傳統搜尋引擎在 Rosacea 公共衛生資訊品質上優於人工智慧（AI）聊天機器人 Cureus 2025-07-23

這項研究比較Google、Bing、ChatGPT和Gemini的健康資訊，發現Google的資訊最可靠、品質最好，ChatGPT和Gemini在正確性和透明度較弱。四個平台的內容閱讀難度都偏高，超過公衛建議。結果顯示AI健康資訊需要更嚴格監督，也要加強民眾的資訊判讀能力。 PubMed DOI

原始文章

站上相關主題文章列表