Assessment of readability, reliability, and quality of ChatGPT®, BARD®, Gemini®, Copilot®, Perplexity® responses on palliative care.
對於緩和醫療的 ChatGPT®、BARD®、Gemini®、Copilot®、Perplexity® 回應的可讀性、可靠性和質量評估。 Medicine (Baltimore) 2024-08-16

這項研究全面評估了多款AI聊天機器人（如ChatGPT®、Bard®、Gemini®、Copilot®和Perplexity®）生成的醫療資訊的可讀性和質量。結果顯示，Bard®的可讀性最佳，而Gemini®最難閱讀。所有聊天機器人的回應都超過了建議的六年級閱讀水平，顯示病人教育材料的可及性需改進。雖然Perplexity®在質量評估中得分最高，但Gemini®的整體質量得分最佳。這強調了確保AI生成的健康資訊既易讀又高質量的重要性，以有效教育病人。 PubMed DOI

Assessing the readability, reliability, and quality of artificial intelligence chatbot responses to the 100 most searched queries about cardiopulmonary resuscitation: An observational study.
評估人工智慧聊天機器人對心肺復甦術最常搜尋的100個問題的可讀性、可靠性和質量：一項觀察性研究。 Medicine (Baltimore) 2024-09-11

這項研究評估了四款人工智慧聊天機器人對心肺復甦術（CPR）的回應質量，包括ChatGPT-3.5、Google Bard、Google Gemini和Perplexity。研究人員提出100個常見問題，獲得400個回應，並用修改版的DISCERN問卷及其他指標評估其質量。結果顯示，所有機器人的回應可讀性均超過六年級，其中Bard最佳，ChatGPT-3.5最難閱讀。研究指出，提升病人教育材料的質量和可讀性，可能有助於提高理解能力及病人存活率。 PubMed DOI

Reliability and quality of information provided by artificial intelligence chatbots on post-contrast acute kidney injury: an evaluation of diagnostic, preventive, and treatment guidance.
人工智慧聊天機器人在對比劑後急性腎損傷資訊提供的可靠性與品質：診斷、預防及治療指導的評估。 Rev Assoc Med Bras (1992) 2024-12-04

這項研究評估了AI聊天機器人提供的對比劑相關急性腎損傷（CAAKI）資訊的可靠性。研究人員向ChatGPT、Gemini、Copilot和Perplexity四個聊天機器人詢問常見問題，結果顯示Perplexity的資訊評價為「良好」，其他則為「一般」。所有回應的可讀性都很複雜，需要大學程度才能理解，且可理解性和適用性評分都偏低。雖然在李克特量表上獲得良好評價，但研究指出AI提供的CAAKI資訊仍可能不夠易懂。 PubMed DOI

Assessing the accuracy and quality of artificial intelligence (AI) chatbot-generated responses in making patient-specific drug-therapy and healthcare-related decisions.
評估人工智慧 (AI) 聊天機器人生成的回應在制定患者特定藥物療法和醫療相關決策中的準確性和質量。 BMC Med Inform Decis Mak 2024-12-24

這項研究評估了ChatGPT在醫療查詢中的可靠性，透過18個開放式問題來檢視其回應的一致性、品質和準確性。結果顯示，ChatGPT在「什麼」問題上表現較好，但在「為什麼」和「如何」問題上則不理想，出現計算錯誤和不正確的單位等問題，甚至有些引用文獻是虛構的。研究結論認為，ChatGPT目前不適合用於醫療學習者或專業人士，因為其回應不一致且參考資料不可靠，可能影響臨床決策。 PubMed DOI

Readability, quality and accuracy of generative artificial intelligence chatbots for commonly asked questions about labor epidurals: a comparison of ChatGPT and Bard.
勞動硬膜外麻醉常見問題的生成式人工智慧聊天機器人的可讀性、質量和準確性：ChatGPT 與 Bard 的比較。 Int J Obstet Anesth 2025-01-04

這項研究比較了兩個生成式人工智慧聊天機器人，ChatGPT 和 Bard，針對常見產科麻醉問題的可讀性、準確性和回答質量。結果顯示，Bard的回答更易懂，達到高中閱讀水平，而ChatGPT則是大學水平。Bard的回答也較長，準確率相似，分別為85%和87%。在患者教育材料的可理解性上，兩者差異不大，但Bard的可行性分數較高。結論強調提供準確且易懂的麻醉資訊對於改善公眾理解及醫療決策的重要性。 PubMed DOI

Comparison of the Accuracy, Completeness, Reproducibility, and Consistency of Different AI Chatbots in Providing Nutritional Advice: An Exploratory Study.
不同 AI 聊天機器人在提供營養建議方面的準確性、完整性、可重複性和一致性的比較：一項探索性研究。 J Clin Med 2025-01-08

這項研究評估了AI聊天機器人在為肥胖患者提供營養建議的表現，分析了兩個案例：一位35歲男性和一位65歲女性。研究測試了十種不同的AI，並由註冊營養師評估其準確性、完整性和重現性。 **主要發現：** - 在第一個案例中，ChatGPT 3.5的準確率最高（67.2%），而Copilot最低（21.1%）。ChatGPT 3.5和4.0的完整性得分最佳（87.3%）。 - 第二個案例中，無一聊天機器人準確率超過50%，ChatGPT 4.0和Claude的完整性最佳（77.8%）。 - 蛋白質攝取建議存在不一致性，部分機器人建議增加，部分則建議減少。 **結論：** 研究指出，通用型AI在複雜健康情境下的飲食建議效果有限，無法取代專業營養師。 PubMed DOI

A Comparison of Prostate Cancer Screening Information Quality on Standard and Advanced Versions of ChatGPT, Google Gemini, and Microsoft Copilot: A Cross-Sectional Study.
標準版與進階版 ChatGPT、Google Gemini 和 Microsoft Copilot 在前列腺癌篩檢資訊品質的比較：一項橫斷面研究。 Am J Health Promot 2025-01-24

這項研究評估了多款AI聊天機器人在提供前列腺癌（PrCA）決策資訊的效果，包括ChatGPT-3.5、ChatGPT-4.0、Microsoft Copilot等。研究重點在於回應的準確性、完整性、可讀性和可信度，特別針對低識字率族群及高風險的非裔美國男性。結果顯示，雖然資訊準確，但完整性和可讀性各有差異。Microsoft Copilot Pro在標準篩檢問題上表現最佳，而Microsoft Copilot則在低識字率回應中表現突出。總體來說，AI聊天機器人可作為前列腺癌篩檢資訊的輔助資源，但仍需醫療專業指導。 PubMed DOI

Assessing the readability, quality and reliability of responses produced by ChatGPT, Gemini, and Perplexity regarding most frequently asked keywords about low back pain.
評估 ChatGPT、Gemini 和 Perplexity 對於有關下背痛的最常見關鍵字所產生的回應的可讀性、質量和可靠性。 PeerJ 2025-01-27

這項研究分析了三款AI聊天機器人（ChatGPT、Perplexity和Gemini）在低背痛相關問題上的可讀性、可靠性和回應質量。研究使用25個常見搜尋關鍵字，評估這些機器人提供的資訊是否易懂且可靠。結果顯示，所有機器人的可讀性均高於六年級水平，表示資訊難以理解。Perplexity在質量評估中表現最佳，但整體而言，這些聊天機器人的回應質量和可靠性都偏低。研究建議未來應提升AI聊天機器人的資訊清晰度與質量，以更好地幫助患者。 PubMed DOI

Evaluating artificial intelligence chatbots for patient education in oral and maxillofacial radiology.
評估人工智慧聊天機器人在口腔與顏面放射學中對病人教育的應用。 Oral Surg Oral Med Oral Pathol Oral Radiol 2025-03-05

這項研究比較了三款AI聊天機器人—ChatGPT-3.5、Gemini 1.5 Pro和Copilot—在回答口腔與顏面放射學常見問題的表現。研究選取了十五個問題，並由三位OMR專家根據科學準確性、易懂性和滿意度進行評估。結果顯示，雖然聊天機器人在科學準確性上無顯著差異，但整體文本較為複雜，需較高的閱讀水平。研究強調，與醫療專業人員驗證AI生成資訊對改善病患護理和安全性的重要性。 PubMed DOI

AI Chatbots as Sources of STD Information: A Study on Reliability and Readability.
AI 聊天機器人作為性病資訊的來源：可靠性和可讀性的研究。 J Med Syst 2025-04-03

這項研究評估了四款AI聊天機器人（ChatGPT、Gemini、Perplexity和Copilot）提供的性傳播疾病資訊的可靠性和可讀性。結果顯示，Perplexity和Copilot的資訊較為可靠，但所有聊天機器人的可讀性都未達到建議的六年級標準，對健康素養較低的使用者來說過於複雜。研究強調了改善AI健康資訊準確性和可及性的必要性，以便讓更多人能理解。 PubMed DOI

原始文章

站上相關主題文章列表