The doc versus the bot: A pilot study to assess the quality and accuracy of physician and chatbot responses to clinical questions in gynecologic oncology.
醫生與聊天機器人：一項評估醫生與聊天機器人對婦科腫瘤學臨床問題的回答質量與準確性的初步研究。 Gynecol Oncol Rep 2024-09-03

這項研究評估了婦科腫瘤學中醫生與AI聊天機器人（如ChatGPT和Bard）對常見臨床問題的回答質量。研究中，五位醫生和兩個AI平台回答了十個問題。結果顯示，醫生的回答在76.7%的情況下被評為最佳，明顯優於ChatGPT（10%）和Bard（13.3%）。醫生的準確率為86.7%，而AI的準確率則分別為60%和43%。這顯示醫生的回答質量和準確性高於AI，並提醒大家在尋求醫療建議時要謹慎使用AI。 PubMed DOI

A comparative analysis of generative artificial intelligence responses from leading chatbots to questions about endometriosis.
對於子宮內膜異位症問題，主要聊天機器人生成的人工智慧回應的比較分析。 AJOG Glob Rep 2025-01-15

這項研究評估了三款生成式AI聊天機器人—Chat GPT-4、Claude和Bard—在回答子宮內膜異位症問題的準確性。九位婦產科醫生對十個常見問題的回答進行評分，結果顯示Bard平均得分3.69，Chat GPT 4.24，Claude 3.7。雖然這些機器人的回答大多正確，但仍不夠全面，Chat GPT的表現最佳。研究強調持續評估這些聊天機器人的必要性，以確保能提供準確且全面的資訊，並指出隨著生成式AI在醫療領域的普及，進一步研究的重要性。 PubMed DOI

Evaluating AI Chatbot Responses to Postkidney Transplant Inquiries.
評估 AI 聊天機器人對腎臟移植後詢問的回應。 Transplant Proc 2025-01-15

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量，並透過病人教育材料評估工具（PEMAT）檢視可理解性和可行性。結果顯示，回應質量高（中位分數4），可理解性良好（中位72.7%），但可行性較差（中位20%）。可讀性較難，Claude 3.0提供最可靠的回應，而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

Efficacy and empathy of AI chatbots in answering frequently asked questions on oral oncology.
AI 聊天機器人在回答口腔腫瘤學常見問題的效能與同理心。 Oral Surg Oral Med Oral Pathol Oral Radiol 2025-01-22

這項研究評估了五款AI聊天機器人對口腔癌問題的回應，包括Bing、GPT-3.5、GPT-4、Google Bard和Claude。經過專家評估，GPT-4獲得最高質量分數（17.3），而Bing最低（14.9）。Bard在可讀性上表現最佳，GPT-4和Bard在同理心及引用準確性方面也表現突出。整體來看，GPT-4提供的回應質量最高，但大多數聊天機器人在同理心和準確引用上仍有待加強。 PubMed DOI

Comparative assessment of artificial intelligence chatbots' performance in responding to healthcare professionals' and caregivers' questions about Dravet syndrome.
人工智慧聊天機器人在回答醫療專業人員和照顧者關於 Dravet syndrome 問題的表現比較評估。 Epilepsia Open 2025-04-01

這項研究評估了兩個AI聊天機器人，ChatGPT 3.5和Perplexity，針對Dravet症候群的問題回答表現。從醫療專業人員和照顧者收集了96個問題，並由癲癇專家評分。主要發現包括：ChatGPT 3.5的準確率為66.7%，而Perplexity為81.3%。兩者在治療問題上表現不佳，完整性方面，ChatGPT 3.5為73.4%，Perplexity為75.7%。ChatGPT 3.5能修正55.6%的錯誤，Perplexity則為80%。可讀性上，Perplexity優於ChatGPT 3.5。研究顯示AI在醫療資訊提供上有潛力，但仍需改善。 PubMed DOI

Evaluation of correctness and reliability of GPT, Bard, and Bing chatbots' responses in basic life support scenarios.
基本生命支持情境中 GPT、Bard 和 Bing 聊天機器人回應的正確性和可靠性評估。 Sci Rep 2025-04-03

這項研究評估了幾款AI聊天機器人（如GPT-3.5、GPT-4、Bard和Bing）在提供基本生命支持（BLS）指導的表現。結果顯示，GPT-4在成人情境中準確率最高（85%），而Bard則中等（60%）。不過，所有機器人在處理兒童和嬰兒的緊急情況時表現不佳，得分都低於44%。雖然GPT-4的可靠性較高，但這些聊天機器人仍未能始終遵循BLS指導，因此在緊急情況下仍需人類監督。 PubMed DOI

Can ChatGPT Help General Practitioners Become Acquainted with Conversations About Dying? A Simulated Single-Case Study.
ChatGPT 能否幫助一般醫生熟悉有關死亡的對話？一項模擬單一案例研究。 Healthcare (Basel) 2025-04-12

這項研究探討了人工智慧（AI）如何幫助一般醫師（GPs）進行關於死亡的開放性討論。研究使用ChatGPT-4o模擬醫療溝通場景，讓GP與臨終病人及其照顧者進行諮詢。結果顯示，ChatGPT成功創建了一個七步驟的討論場景，但未明確使用「臨終」或「死亡」等詞彙，也忽略了文化和宗教因素。總結來說，ChatGPT-4o可作為GPs學習進行敏感討論的有用工具，無需高端技術資源。 PubMed DOI

Application of AI Chatbot in Responding to Asynchronous Text-Based Messages From Patients With Cancer: Comparative Study.
AI 聊天機器人在回應癌症病患非同步文字訊息的應用：比較性研究 J Med Internet Res 2025-05-21

這項研究比較GPT-4和中國腫瘤科醫師回答癌症病患問題的表現。結果顯示，GPT-4在病患衛教的答案較完整，正確性和安全性也不輸醫師，但在醫療決策上正確率較低，偶爾還會出現危險錯誤。醫師和病患對同理心的感受也不同。總結來說，GPT-4適合用於衛教，但在醫療決策上仍需醫師把關。 PubMed DOI

Evaluation of AI-Based Chatbots in Liver Cancer Information Dissemination: A Comparative Analysis of GPT, DeepSeek, Copilot, and Gemini.
AI 聊天機器人在肝癌資訊傳播中的評估：GPT、DeepSeek、Copilot 與 Gemini 之比較分析 Oncology 2025-06-10

這項研究比較四款免費AI聊天機器人回答肝癌相關問題的表現，發現它們雖然能提供大致正確且無偏見的資訊，但在資料來源、治療細節和說明清楚度上有差異。AI回答可作為參考，但仍需專業醫師把關，不能取代醫療建議。 PubMed DOI

Evaluating the Reliability and Quality of Sarcoidosis-Related Information Provided by AI Chatbots.
AI 聊天機器人所提供有關 Sarcoidosis 資訊之可靠性與品質評估 Healthcare (Basel) 2025-06-13

這項研究發現，採用檢索增強技術的AI聊天機器人（如ChatGPT-4o Deep Research等）在提供結節病資訊時，比一般AI更準確可靠。不過，他們的回答多半太艱深，病人不易看懂，而且給的實際建議也不夠明確。整體來說，AI雖然能提供高品質資訊，但在易讀性和實用性上還有進步空間。 PubMed DOI

原始文章

站上相關主題文章列表