Assessing the readability, quality and reliability of responses produced by ChatGPT, Gemini, and Perplexity regarding most frequently asked keywords about low back pain.
評估 ChatGPT、Gemini 和 Perplexity 對於有關下背痛的最常見關鍵字所產生的回應的可讀性、質量和可靠性。 PeerJ 2025-01-27

這項研究分析了三款AI聊天機器人（ChatGPT、Perplexity和Gemini）在低背痛相關問題上的可讀性、可靠性和回應質量。研究使用25個常見搜尋關鍵字，評估這些機器人提供的資訊是否易懂且可靠。結果顯示，所有機器人的可讀性均高於六年級水平，表示資訊難以理解。Perplexity在質量評估中表現最佳，但整體而言，這些聊天機器人的回應質量和可靠性都偏低。研究建議未來應提升AI聊天機器人的資訊清晰度與質量，以更好地幫助患者。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2025-01-28

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。分析了30個問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，風險因素則最不準確。可讀性平均得分為50.94，顯示文本相對困難。此外，70%-100%的回答都有健康建議的免責聲明。總體而言，雖然LLM聊天機器人有潛力，但準確性和可讀性差異可能影響病人理解。 PubMed DOI

Evaluating the Quality and Readability of Information Provided by Generative Artificial Intelligence Chatbots on Clavicle Fracture Treatment Options.
評估生成式人工智慧聊天機器人提供的鎖骨骨折治療選項資訊的質量和可讀性。 Cureus 2025-02-10

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果，包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異，但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看，這些AI模型在病患教育中表現良好，特別是Microsoft Copilot和Perplexity，適合用於提供鎖骨骨折相關資訊。 PubMed DOI

Evaluating the Quality and Readability of Generative Artificial Intelligence (AI) Chatbot Responses in the Management of Achilles Tendon Rupture.
評估生成式人工智慧 (AI) 聊天機器人在跟腱斷裂管理中的回應質量和可讀性。 Cureus 2025-03-04

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量，目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示，Gemini 1.0的可讀性最佳，對一般讀者最易理解；而在回應質量上，Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言，這些聊天機器人都能提供高於平均水平的資訊，顯示出它們在病人教育上的價值。 PubMed DOI

Dr. Chatbot: Investigating the Quality and Quantity of Responses Generated by Three AI Chatbots to Prompts Regarding Carpal Tunnel Syndrome.
Dr. Chatbot：三種 AI 聊天機器人對於腕隧道症候群相關提問之回應品質與數量的探討 Cureus 2025-04-24

這項研究比較三款AI聊天機器人回答腕隧道症候群相關問題的表現。ChatGPT-4o 回答最詳細，但 AMBOSS GPT 的答案最常被 UpToDate 證實，正確率最高。總結來說，GPT-4o 資訊多，AMBOSS GPT 則較可靠。 PubMed DOI

Readability, accuracy and appropriateness and quality of AI chatbot responses as a patient information source on root canal retreatment: A comparative assessment.
AI 聊天機器人作為根管再治療病患資訊來源之可讀性、準確性、適切性與回應品質的比較評估 Int J Med Inform 2025-04-27

這項研究比較了ChatGPT-3.5、Copilot和Gemini三款聊天機器人，發現它們回答根管再治療相關問題時，內容都太難懂，超過一般病人能輕鬆理解的程度。雖然Gemini表現最好，但還是沒達到理想的衛教標準，顯示這些AI工具未來還需要加強，才能真正幫助病人了解醫療資訊。 PubMed DOI

Performance of AI-Chatbots to Common Temporomandibular Joint Disorders (TMDs) Patient Queries: Accuracy, Completeness, Reliability and Readability.
AI 聊天機器人在回應常見顳顎關節疾病（TMDs）患者提問時的表現：準確性、完整性、可靠性與可讀性 Orthod Craniofac Res 2025-05-07

這項研究發現，Google Gemini 在回答顳顎關節障礙問題時正確率最高，但 ChatGPT-4o 的答案最完整、最可靠。兩者都會提供參考資料和安全建議，但參考內容不一定有實證。Gemini 會用多媒體輔助說明。整體來說，ChatGPT-4o 和 Gemini 都能給出正確又好懂的資訊，但參考資料還有改進空間。 PubMed DOI

Evaluating Large Language Models in Addressing Patient Questions on Endodontic Pain: A Comparative Analysis of accessible chatbots.
可及性聊天機器人在回應病患牙髓疼痛問題之表現評估：大型語言模型的比較分析 J Endod 2025-05-07

這項研究發現，ChatGPT 3.5回答牙髓病痛問題時，內容較完整可靠，但用詞偏難懂；Gemini則較易讀，但資訊不夠完整、可靠性較低。總結來說，AI雖能輔助衛教，仍需專業人員把關，確保資訊正確又好懂。 PubMed DOI

Assessing ChatGPT responses to patient questions on epidural steroid injections: A comparative study of general vs specific queries.
ChatGPT 回應病患有關硬脊膜外類固醇注射問題之評估：一般性與特定性提問的比較研究 Interv Pain Med 2025-06-13

這項研究發現，ChatGPT在回答硬脊膜外類固醇注射相關問題時，整體來說資訊正確且清楚，尤其是針對一般性問題。不過，AI在展現同理心方面表現有限，有時也會離題。未來若要在臨床上廣泛應用，還需要更精確的提問設計和更多研究來確保病人安全。 PubMed DOI

Evaluating the readability, quality, and reliability of responses generated by ChatGPT, Gemini, and Perplexity on the most commonly asked questions about Ankylosing spondylitis.
ChatGPT、Gemini 與 Perplexity 回答最常見 Ankylosing spondylitis 問題之可讀性、品質與可靠性評估 PLoS One 2025-06-18

這項研究比較ChatGPT、Perplexity和Gemini三款AI聊天機器人，針對僵直性脊椎炎的回答。結果發現，三者的答案都超過國中六年級的閱讀難度，一般人較難看懂。Perplexity的資訊最可靠、品質也最好。不過，整體來說，這些AI在可讀性、正確性和品質上還有進步空間，未來仍需加強與監督。 PubMed DOI

原始文章

站上相關主題文章列表