Assessment of readability, reliability, and quality of ChatGPT®, BARD®, Gemini®, Copilot®, Perplexity® responses on palliative care.
對於緩和醫療的 ChatGPT®、BARD®、Gemini®、Copilot®、Perplexity® 回應的可讀性、可靠性和質量評估。 Medicine (Baltimore) 2024-08-16

這項研究全面評估了多款AI聊天機器人（如ChatGPT®、Bard®、Gemini®、Copilot®和Perplexity®）生成的醫療資訊的可讀性和質量。結果顯示，Bard®的可讀性最佳，而Gemini®最難閱讀。所有聊天機器人的回應都超過了建議的六年級閱讀水平，顯示病人教育材料的可及性需改進。雖然Perplexity®在質量評估中得分最高，但Gemini®的整體質量得分最佳。這強調了確保AI生成的健康資訊既易讀又高質量的重要性，以有效教育病人。 PubMed DOI

Assessing the readability, reliability, and quality of artificial intelligence chatbot responses to the 100 most searched queries about cardiopulmonary resuscitation: An observational study.
評估人工智慧聊天機器人對心肺復甦術最常搜尋的100個問題的可讀性、可靠性和質量：一項觀察性研究。 Medicine (Baltimore) 2024-09-11

這項研究評估了四款人工智慧聊天機器人對心肺復甦術（CPR）的回應質量，包括ChatGPT-3.5、Google Bard、Google Gemini和Perplexity。研究人員提出100個常見問題，獲得400個回應，並用修改版的DISCERN問卷及其他指標評估其質量。結果顯示，所有機器人的回應可讀性均超過六年級，其中Bard最佳，ChatGPT-3.5最難閱讀。研究指出，提升病人教育材料的質量和可讀性，可能有助於提高理解能力及病人存活率。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2024-09-19

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。研究分析了30個由臨床醫師制定的問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，但風險因素的回答最不準確。整體可讀性被評為「相當困難」，平均得分為50.94。此外，70%-100%的回答都包含健康建議的免責聲明。研究建議，雖然LLM聊天機器人對病人教育有幫助，但準確性和可靠性可能因主題而異，影響病人理解。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2025-01-28

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。分析了30個問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，風險因素則最不準確。可讀性平均得分為50.94，顯示文本相對困難。此外，70%-100%的回答都有健康建議的免責聲明。總體而言，雖然LLM聊天機器人有潛力，但準確性和可讀性差異可能影響病人理解。 PubMed DOI

Evaluating the Quality and Readability of Information Provided by Generative Artificial Intelligence Chatbots on Clavicle Fracture Treatment Options.
評估生成式人工智慧聊天機器人提供的鎖骨骨折治療選項資訊的質量和可讀性。 Cureus 2025-02-10

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果，包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異，但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看，這些AI模型在病患教育中表現良好，特別是Microsoft Copilot和Perplexity，適合用於提供鎖骨骨折相關資訊。 PubMed DOI

Comparing ChatGPT 3.5 and 4.0 in Low Back Pain Patient Education: Addressing Strengths Limitations, and Psychosocial Challenges.
比較 ChatGPT 3.5 和 4.0 在下背痛患者教育中的應用：應對優勢、限制及心理社會挑戰。 World Neurosurg 2025-02-14

這項研究評估了AI工具，特別是ChatGPT 3.5和4.0，在提供低背痛患者教育的效果。結果顯示，ChatGPT 4.0在回應質量上明顯優於3.5，得分分別為1.03和2.07，且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳，顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

Evaluating the Quality and Readability of Generative Artificial Intelligence (AI) Chatbot Responses in the Management of Achilles Tendon Rupture.
評估生成式人工智慧 (AI) 聊天機器人在跟腱斷裂管理中的回應質量和可讀性。 Cureus 2025-03-04

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量，目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示，Gemini 1.0的可讀性最佳，對一般讀者最易理解；而在回應質量上，Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言，這些聊天機器人都能提供高於平均水平的資訊，顯示出它們在病人教育上的價值。 PubMed DOI

Evaluation of the reliability, usefulness, quality and readability of ChatGPT's responses on Scoliosis.
對於脊柱側彎的 ChatGPT 回應的可靠性、有用性、質量和可讀性的評估。 Eur J Orthop Surg Traumatol 2025-03-18

這項研究評估了ChatGPT對脊柱側彎問題的回答在可靠性、有用性、品質和可讀性方面的表現。選擇了十六個常見問題，由兩位專家評分。結果顯示，可靠性平均得分4.68，有用性得分4.84，整體品質得分4.28，評價普遍正面。雖然一般資訊的回答表現不錯，但針對治療和個人化問題的回答仍需加強。可讀性方面，回答需具備高中三年級到大學程度的閱讀能力。總體來說，ChatGPT提供的脊柱側彎資訊可靠，但在特定問題上仍需謹慎使用。 PubMed DOI

Readability, reliability and quality of responses generated by ChatGPT, gemini, and perplexity for the most frequently asked questions about pain.
ChatGPT、Gemini 和 Perplexity 對於最常見的疼痛相關問題所生成的回答的可讀性、可靠性和質量。 Medicine (Baltimore) 2025-03-18

這項研究調查了三款AI聊天機器人—ChatGPT、Gemini和Perplexity—在回答有關疼痛的常見問題時的可讀性、可靠性和回應質量。全球超過30%的人口面臨慢性疼痛，許多人會在就醫前尋找健康資訊。研究發現，這三款聊天機器人的可讀性均超過六年級水平，其中Gemini最佳。質量方面，Gemini得分較高，而Perplexity在可靠性評估中表現較好。總體來說，這些聊天機器人的回應難以閱讀，且可靠性和質量較低，無法取代專業醫療諮詢，建議改善可讀性並加強專家監督。 PubMed DOI

Evaluating AI-generated patient education materials for spinal surgeries: Comparative analysis of readability and DISCERN quality across ChatGPT and deepseek models.
評估 AI 生成的脊椎手術病患教育材料：ChatGPT 與 deepseek 模型在可讀性和 DISCERN 質量上的比較分析。 Int J Med Inform 2025-03-19

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性，主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示，DeepSeek-R1 的可讀性最佳，Flesch-Kincaid 分數介於 7.2 到 9.0 之間，而 ChatGPT-o3 的可讀性最低，超過 10.4。所有模型的資訊品質均低於 60，顯示出「公平」的品質，主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性，未來應整合互動元素和病患反饋，以提升準確性和可及性。 PubMed DOI

原始文章

站上相關主題文章列表