Assessing the readability, quality and reliability of responses produced by ChatGPT, Gemini, and Perplexity regarding most frequently asked keywords about low back pain.
評估 ChatGPT、Gemini 和 Perplexity 對於有關下背痛的最常見關鍵字所產生的回應的可讀性、質量和可靠性。 PeerJ 2025-01-27

這項研究分析了三款AI聊天機器人（ChatGPT、Perplexity和Gemini）在低背痛相關問題上的可讀性、可靠性和回應質量。研究使用25個常見搜尋關鍵字，評估這些機器人提供的資訊是否易懂且可靠。結果顯示，所有機器人的可讀性均高於六年級水平，表示資訊難以理解。Perplexity在質量評估中表現最佳，但整體而言，這些聊天機器人的回應質量和可靠性都偏低。研究建議未來應提升AI聊天機器人的資訊清晰度與質量，以更好地幫助患者。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2025-01-28

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。分析了30個問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，風險因素則最不準確。可讀性平均得分為50.94，顯示文本相對困難。此外，70%-100%的回答都有健康建議的免責聲明。總體而言，雖然LLM聊天機器人有潛力，但準確性和可讀性差異可能影響病人理解。 PubMed DOI

Evaluating the Quality and Readability of Information Provided by Generative Artificial Intelligence Chatbots on Clavicle Fracture Treatment Options.
評估生成式人工智慧聊天機器人提供的鎖骨骨折治療選項資訊的質量和可讀性。 Cureus 2025-02-10

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果，包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異，但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看，這些AI模型在病患教育中表現良好，特別是Microsoft Copilot和Perplexity，適合用於提供鎖骨骨折相關資訊。 PubMed DOI

Evaluating the Quality and Readability of Generative Artificial Intelligence (AI) Chatbot Responses in the Management of Achilles Tendon Rupture.
評估生成式人工智慧 (AI) 聊天機器人在跟腱斷裂管理中的回應質量和可讀性。 Cureus 2025-03-04

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量，目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示，Gemini 1.0的可讀性最佳，對一般讀者最易理解；而在回應質量上，Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言，這些聊天機器人都能提供高於平均水平的資訊，顯示出它們在病人教育上的價值。 PubMed DOI

Evaluation of the reliability, usefulness, quality and readability of ChatGPT's responses on Scoliosis.
對於脊柱側彎的 ChatGPT 回應的可靠性、有用性、質量和可讀性的評估。 Eur J Orthop Surg Traumatol 2025-03-18

這項研究評估了ChatGPT對脊柱側彎問題的回答在可靠性、有用性、品質和可讀性方面的表現。選擇了十六個常見問題，由兩位專家評分。結果顯示，可靠性平均得分4.68，有用性得分4.84，整體品質得分4.28，評價普遍正面。雖然一般資訊的回答表現不錯，但針對治療和個人化問題的回答仍需加強。可讀性方面，回答需具備高中三年級到大學程度的閱讀能力。總體來說，ChatGPT提供的脊柱側彎資訊可靠，但在特定問題上仍需謹慎使用。 PubMed DOI

Readability, reliability and quality of responses generated by ChatGPT, gemini, and perplexity for the most frequently asked questions about pain.
ChatGPT、Gemini 和 Perplexity 對於最常見的疼痛相關問題所生成的回答的可讀性、可靠性和質量。 Medicine (Baltimore) 2025-03-18

這項研究調查了三款AI聊天機器人—ChatGPT、Gemini和Perplexity—在回答有關疼痛的常見問題時的可讀性、可靠性和回應質量。全球超過30%的人口面臨慢性疼痛，許多人會在就醫前尋找健康資訊。研究發現，這三款聊天機器人的可讀性均超過六年級水平，其中Gemini最佳。質量方面，Gemini得分較高，而Perplexity在可靠性評估中表現較好。總體來說，這些聊天機器人的回應難以閱讀，且可靠性和質量較低，無法取代專業醫療諮詢，建議改善可讀性並加強專家監督。 PubMed DOI

Dr. Chatbot: Investigating the Quality and Quantity of Responses Generated by Three AI Chatbots to Prompts Regarding Carpal Tunnel Syndrome.
Dr. Chatbot：三種 AI 聊天機器人對於腕隧道症候群相關提問之回應品質與數量的探討 Cureus 2025-04-24

這項研究比較三款AI聊天機器人回答腕隧道症候群相關問題的表現。ChatGPT-4o 回答最詳細，但 AMBOSS GPT 的答案最常被 UpToDate 證實，正確率最高。總結來說，GPT-4o 資訊多，AMBOSS GPT 則較可靠。 PubMed DOI

Readability, accuracy and appropriateness and quality of AI chatbot responses as a patient information source on root canal retreatment: A comparative assessment.
AI 聊天機器人作為根管再治療病患資訊來源之可讀性、準確性、適切性與回應品質的比較評估 Int J Med Inform 2025-04-27

這項研究比較了ChatGPT-3.5、Copilot和Gemini三款聊天機器人，發現它們回答根管再治療相關問題時，內容都太難懂，超過一般病人能輕鬆理解的程度。雖然Gemini表現最好，但還是沒達到理想的衛教標準，顯示這些AI工具未來還需要加強，才能真正幫助病人了解醫療資訊。 PubMed DOI

Evaluating the Reliability and Quality of Sarcoidosis-Related Information Provided by AI Chatbots.
AI 聊天機器人所提供有關 Sarcoidosis 資訊之可靠性與品質評估 Healthcare (Basel) 2025-06-13

這項研究發現，採用檢索增強技術的AI聊天機器人（如ChatGPT-4o Deep Research等）在提供結節病資訊時，比一般AI更準確可靠。不過，他們的回答多半太艱深，病人不易看懂，而且給的實際建議也不夠明確。整體來說，AI雖然能提供高品質資訊，但在易讀性和實用性上還有進步空間。 PubMed DOI

Evaluation of the Performance of Large Language Models in the Management of Axial Spondyloarthropathy: Analysis of EULAR 2022 Recommendations.
大型語言模型在軸向脊椎關節病管理中的表現評估：EULAR 2022 指南分析 Diagnostics (Basel) 2025-06-26

這項研究發現，Gemini 2.0的答案最容易閱讀，ChatGPT-4o和Gemini 2.0的回覆比ChatGPT-3.5更可靠、實用，且ChatGPT-4o的內容和指引最接近。整體來說，ChatGPT-4o和Gemini 2.0有機會成為風濕免疫科醫師的臨床決策好幫手。 PubMed DOI

原始文章

站上相關主題文章列表