How Useful are Current Chatbots Regarding Urology Patient Information? Comparison of the Ten Most Popular Chatbots' Responses About Female Urinary Incontinence.
目前的聊天機器人在泌尿科病患資訊方面有多大用處？對於女性尿失禁的十個最受歡迎聊天機器人回應的比較。 J Med Syst 2024-11-13

這項研究評估了十個熱門AI聊天機器人（如GPT-4）的女性尿失禁患者資訊的可讀性與品質。研究使用特定提示，透過EQIP技術和QUEST工具來評估內容品質，並計算八種可讀性公式的平均值。結果顯示，聊天機器人之間的品質差異明顯，Gemini得分最高，Grok最低。可讀性方面，Grok最易讀，Mistral則最複雜。這些結果顯示，AI聊天機器人需改進，以提升女性尿失禁患者資訊的可讀性與品質。 PubMed DOI

Comparative evaluation of ChatGPT-4, ChatGPT-3.5 and Google Gemini on PCOS assessment and management based on recommendations from the 2023 guideline.
基於2023年指導方針對多囊卵巢症候群（PCOS）評估和管理的建議，對ChatGPT-4、ChatGPT-3.5和Google Gemini的比較評估。 Endocrine 2024-12-02

這項研究評估了三種AI模型—ChatGPT-4、ChatGPT-3.5和Google Gemini—在提供多囊卵巢症候群（PCOS）資訊的有效性。結果顯示，ChatGPT-4和3.5在回答準確性和質量上優於Gemini，但Gemini的可讀性較高，讓回答更易懂。此外，Gemini的錯誤資訊傾向較低。總體來看，ChatGPT-4和3.5在臨床上可成為教育患者的有用工具，未來AI技術的進步可能進一步提升其效用。 PubMed DOI

Evaluating AI Chatbot Responses to Postkidney Transplant Inquiries.
評估 AI 聊天機器人對腎臟移植後詢問的回應。 Transplant Proc 2025-01-15

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量，並透過病人教育材料評估工具（PEMAT）檢視可理解性和可行性。結果顯示，回應質量高（中位分數4），可理解性良好（中位72.7%），但可行性較差（中位20%）。可讀性較難，Claude 3.0提供最可靠的回應，而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

Comparative analysis of ChatGPT and Gemini (Bard) in medical inquiry: a scoping review.
醫學查詢中 ChatGPT 與 Gemini (Bard) 的比較分析：範疇回顧。 Front Digit Health 2025-02-18

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度，基於2023年1月到10月的研究。從64篇論文中，11篇符合標準，涉及1,177個樣本。結果顯示，ChatGPT在準確性上普遍優於Gemini，尤其在放射學方面（87.43%對71%），且回應較短（907字元對1,428字元）。不過，Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示，ChatGPT在準確性和回應長度上均顯著優於Gemini，建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

Dr. Chatbot: Investigating the Quality and Quantity of Responses Generated by Three AI Chatbots to Prompts Regarding Carpal Tunnel Syndrome.
Dr. Chatbot：三種 AI 聊天機器人對於腕隧道症候群相關提問之回應品質與數量的探討 Cureus 2025-04-24

這項研究比較三款AI聊天機器人回答腕隧道症候群相關問題的表現。ChatGPT-4o 回答最詳細，但 AMBOSS GPT 的答案最常被 UpToDate 證實，正確率最高。總結來說，GPT-4o 資訊多，AMBOSS GPT 則較可靠。 PubMed DOI

Readability, accuracy and appropriateness and quality of AI chatbot responses as a patient information source on root canal retreatment: A comparative assessment.
AI 聊天機器人作為根管再治療病患資訊來源之可讀性、準確性、適切性與回應品質的比較評估 Int J Med Inform 2025-04-27

這項研究比較了ChatGPT-3.5、Copilot和Gemini三款聊天機器人，發現它們回答根管再治療相關問題時，內容都太難懂，超過一般病人能輕鬆理解的程度。雖然Gemini表現最好，但還是沒達到理想的衛教標準，顯示這些AI工具未來還需要加強，才能真正幫助病人了解醫療資訊。 PubMed DOI

Comparison of performance of artificial intelligence tools in answering emergency medicine question pool: ChatGPT 4.0, Google Gemini and Microsoft Copilot.
人工智慧工具於急診醫學題庫作答表現之比較：ChatGPT 4.0、Google Gemini 與 Microsoft Copilot Pak J Med Sci 2025-04-28

這項研究比較了三款AI聊天機器人在土耳其醫學專科考試急診醫學題目的表現，發現 Copilot 錯誤率最低，Gemini 錯誤率最高。三款AI在創傷、外科、燒燙傷和小兒題目表現較差，遇到機率題時錯誤率也會增加。雖然AI能輔助學習，但不建議當作醫學考試的主要讀書工具。 PubMed DOI

Assessment of artificial intelligence performance in answering questions on onabotulinum toxin and sacral neuromodulation.
人工智慧在回答有關 onabotulinum toxin 與 sacral neuromodulation 問題之表現評估 Investig Clin Urol 2025-05-02

這項研究比較ChatGPT、Gemini和Copilot三種AI回答OAB治療問題的表現。結果顯示，ChatGPT在正確性、完整性、清楚度和實用性都拿下最高分，平均3.98/4，特別適合臨床應用。Gemini和Copilot表現較差且不穩定。整體來說，ChatGPT目前最可靠，但所有AI還需進一步改進和臨床驗證。 PubMed DOI

Comparison of ChatGPT-4, Microsoft Copilot, and Google Gemini for Pediatric Ophthalmology Questions.
ChatGPT-4、Microsoft Copilot 與 Google Gemini 在小兒眼科問題上的比較 J Pediatr Ophthalmol Strabismus 2025-05-27

研究比較了ChatGPT、Google Gemini和Microsoft Copilot在小兒眼科選擇題的表現，Copilot正確率最高（74%），也最容易閱讀。雖然這些AI對學習有幫助，但答案不一定完全正確，使用時還是要多加留意。 PubMed DOI

AI Chatbots in Pediatric Orthopedics: How Accurate Are Their Answers to Parents' Questions on Bowlegs and Knock Knees?
兒童骨科中的 AI 聊天機器人：它們對家長關於 O 型腿與 X 型腿問題的回答有多準確？ Healthcare (Basel) 2025-06-13

這項研究比較了三款AI聊天機器人回答兒童O型腿和X型腿問題的表現。結果發現，ChatGPT和Gemini的答案比Copilot更正確、內容也更完整，但三者在表達清楚度和錯誤資訊風險上差不多。整體來說，AI可以協助提供健康資訊，但在兒科醫療領域，專家審核還是很重要。 PubMed DOI

原始文章

站上相關主題文章列表