Evaluation of the Usability of ChatGPT-4 and Google Gemini in Patient Education About Rhinosinusitis.
關於鼻竇炎患者教育中 ChatGPT-4 和 Google Gemini 可用性的評估。 Clin Otolaryngol 2025-01-08

這項研究評估了AI聊天機器人ChatGPT-4和Google Gemini在鼻竇炎患者教育的有效性。研究人員提出109個問題，涵蓋一般知識、診斷、治療、手術和併發症，並由專業耳鼻喉科醫生評估回答。結果顯示，ChatGPT-4在診斷方面表現優異，獲得滿分，而Google Gemini在治療類別中則有較多不準確的回答。整體來看，ChatGPT-4在準確性和全面性上明顯優於Google Gemini。 PubMed DOI

Evaluating AI Chatbot Responses to Postkidney Transplant Inquiries.
評估 AI 聊天機器人對腎臟移植後詢問的回應。 Transplant Proc 2025-01-15

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量，並透過病人教育材料評估工具（PEMAT）檢視可理解性和可行性。結果顯示，回應質量高（中位分數4），可理解性良好（中位72.7%），但可行性較差（中位20%）。可讀性較難，Claude 3.0提供最可靠的回應，而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

Efficacy and empathy of AI chatbots in answering frequently asked questions on oral oncology.
AI 聊天機器人在回答口腔腫瘤學常見問題的效能與同理心。 Oral Surg Oral Med Oral Pathol Oral Radiol 2025-01-22

這項研究評估了五款AI聊天機器人對口腔癌問題的回應，包括Bing、GPT-3.5、GPT-4、Google Bard和Claude。經過專家評估，GPT-4獲得最高質量分數（17.3），而Bing最低（14.9）。Bard在可讀性上表現最佳，GPT-4和Bard在同理心及引用準確性方面也表現突出。整體來看，GPT-4提供的回應質量最高，但大多數聊天機器人在同理心和準確引用上仍有待加強。 PubMed DOI

Evaluating the Quality and Readability of Information Provided by Generative Artificial Intelligence Chatbots on Clavicle Fracture Treatment Options.
評估生成式人工智慧聊天機器人提供的鎖骨骨折治療選項資訊的質量和可讀性。 Cureus 2025-02-10

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果，包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異，但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看，這些AI模型在病患教育中表現良好，特別是Microsoft Copilot和Perplexity，適合用於提供鎖骨骨折相關資訊。 PubMed DOI

Artificial intelligence-based chatbot assistance in clinical decision-making for medically complex patients in oral surgery: a comparative study.
基於人工智慧的聊天機器人在口腔外科醫療複雜患者臨床決策中的輔助作用：一項比較研究。 BMC Oral Health 2025-03-07

這項研究評估了基於人工智慧的聊天機器人，特別是ChatGPT 3.5和Claude-instant，在複雜口腔外科案例中輔助臨床決策的效果。口腔及顏面外科醫生設計了一系列問題，並透過專業評估工具來檢視聊天機器人的回應質量。結果顯示，ChatGPT和Claude-instant都提供高質量的回應，ChatGPT的質量評分分別為86%和79.6%，而Claude-instant則為81.25%和89%。這些結果顯示聊天機器人技術的進步，可能提升醫療效率並降低成本。 PubMed DOI

The Role of Claude 3.5 Sonet and ChatGPT-4 in Posterior Cervical Fusion Patient Guidance.
Claude 3.5 Sonet 和 ChatGPT-4 在後頸椎融合患者指導中的角色。 World Neurosurg 2025-03-13

這項研究評估了兩個人工智慧平台，ChatGPT-4 和 Claude 3.5 Sonet，在管理接受後頸椎融合手術患者的術後護理的有效性。結果顯示，Claude 3.5 Sonet在準確性、回應時間、清晰度和相關性上均顯著優於ChatGPT-4。李克特量表的評分也顯示Claude在滿意度和質量上有明顯優勢。整體而言，Claude 3.5 Sonet被證明是一個有效的術後問題解決工具，對提升患者護理和滿意度有很大潛力。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

Comparison of quality, empathy and readability of physician responses versus chatbot responses to common cerebrovascular neurosurgical questions on a social media platform.
醫師回覆與聊天機器人回覆於社群媒體平台上對常見腦血管神經外科問題之品質、同理心與可讀性比較 Clin Neurol Neurosurg 2025-06-01

這項初步研究發現，ChatGPT 3.5回答腦血管問題時，比醫師更完整、有同理心，正確率也差不多，但用詞較艱深，一般人可能看不懂。未來可考慮結合AI和醫師意見，幫助病患更好溝通。 PubMed DOI

Evaluating AI Chatbots for Preoperative and Postoperative Counseling for Mandibular Distraction Osteogenesis.
用於下頜骨牽引成骨術術前與術後衛教諮詢之 AI 聊天機器人評估 J Craniofac Surg 2025-06-09

這項研究發現，AI 聊天機器人（像是ChatGPT、Copilot等）在回答兒童下頜骨延長術常見照護問題時，雖然Copilot表現最好，但整體來說，答案不夠可靠、資料來源不足，而且用詞太艱深，病人和家屬很難看懂，暫時還不適合當作醫療諮詢的主要工具。 PubMed DOI

Evaluating the Reliability and Quality of Sarcoidosis-Related Information Provided by AI Chatbots.
AI 聊天機器人所提供有關 Sarcoidosis 資訊之可靠性與品質評估 Healthcare (Basel) 2025-06-13

這項研究發現，採用檢索增強技術的AI聊天機器人（如ChatGPT-4o Deep Research等）在提供結節病資訊時，比一般AI更準確可靠。不過，他們的回答多半太艱深，病人不易看懂，而且給的實際建議也不夠明確。整體來說，AI雖然能提供高品質資訊，但在易讀性和實用性上還有進步空間。 PubMed DOI

原始文章

站上相關主題文章列表