Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Evaluating Artificial Intelligence (AI)-Generated Patient Education Guides on Epilepsy: A Cross-Sectional Study of ChatGPT and Google Gemini.
評估人工智慧 (AI) 生成的癲癇患者教育指南：ChatGPT 和 Google Gemini 的橫斷面研究。 Cureus 2024-12-09

本研究比較了兩種人工智慧工具——ChatGPT和Google Gemini，在生成癲癇病人教育指南的有效性。結果顯示，兩者在多項指標上無顯著差異，但Google Gemini在理解難易度上表現較佳，特別是在全身性強直-陣攣發作、肌陣攣發作及癲癇持續狀態的回應中，且其每字音節數也較少。這顯示Google Gemini在病人教育方面更具優勢，未來需進一步提升AI工具的能力，以增進癲癇病人教育的效果。 PubMed DOI

Dementia Care Research and Psychosocial Factors.
癡呆症照護研究與心理社會因素。 Alzheimers Dement 2025-01-09

這項研究評估了ChatGPT-4在解答阿茲海默症相關問題的有效性，指出AI在臨床初步資訊收集中的應用逐漸增加，但也對其準確性和可靠性表示擔憂。研究使用DISCERN和AGREE II評分框架，由兩位神經科醫生盲評ChatGPT-4的回答，結果顯示其準確性中等，AGREE平均分為2.27/7，DISCERN為2.14/5。雖然ChatGPT-4在神經學資訊上有潛力，但醫療專業人員應謹慎使用，並強調公眾需了解AI的限制與適當應用。 PubMed DOI

Comparative analysis of ChatGPT and Gemini (Bard) in medical inquiry: a scoping review.
醫學查詢中 ChatGPT 與 Gemini (Bard) 的比較分析：範疇回顧。 Front Digit Health 2025-02-18

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度，基於2023年1月到10月的研究。從64篇論文中，11篇符合標準，涉及1,177個樣本。結果顯示，ChatGPT在準確性上普遍優於Gemini，尤其在放射學方面（87.43%對71%），且回應較短（907字元對1,428字元）。不過，Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示，ChatGPT在準確性和回應長度上均顯著優於Gemini，建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

Can ChatGPT and Gemini justify brain CT referrals? A comparative study with human experts and a custom prediction model.
ChatGPT 和 Gemini 能否為腦部 CT 轉診提供合理依據？與人類專家及自訂預測模型的比較研究。 Eur Radiol Exp 2025-02-18

這項研究評估了ChatGPT和Gemini在根據歐洲放射學會iGuide解釋成人腦部CT轉診的表現。結果顯示，歐洲影像轉診指導方針的採用不佳，導致許多不必要的CT掃描。雖然ChatGPT在分析美國指導方針時表現良好，但在這項研究中，兩個聊天機器人在辯護CT轉診方面的表現有限，特別是對模糊案例。研究建議，雖然聊天機器人有潛力，但仍需改進以應對真實世界的挑戰。自訂預測模型的表現則顯著優於聊天機器人。 PubMed DOI

Artificial intelligence in healthcare education: evaluating the accuracy of ChatGPT, Copilot, and Google Gemini in cardiovascular pharmacology.
醫療教育中的人工智慧：評估 ChatGPT、Copilot 和 Google Gemini 在心血管藥理學中的準確性。 Front Med (Lausanne) 2025-03-06

這項研究分析了三種生成式人工智慧工具—ChatGPT-4、Copilot 和 Google Gemini—在心血管藥理學問題上的表現。研究使用了45道多選題和30道短答題，並由專家評估AI生成的答案準確性。結果顯示，這三種AI在簡單和中等難度的多選題上表現良好，但在高難度題目上表現不佳，特別是Gemini。ChatGPT-4在所有題型中表現最佳，Copilot次之，而Gemini則需改進。這些結果顯示AI在醫學教育中的潛力與挑戰。 PubMed DOI

Evaluating ChatGPT for neurocognitive disorder diagnosis: a multicenter study.
評估 ChatGPT 在神經認知障礙診斷中的應用：一項多中心研究。 Clin Neuropsychol 2025-03-17

本研究評估ChatGPT 4 Omni在診斷神經認知障礙的準確性，並與早期版本比較。研究分為兩部分，第一部分分析其與臨床醫生的診斷一致性，涉及12,922名老年人，結果顯示有一定的關聯性，但準確性仍不足以獨立使用。第二部分則使用537名老年人的數據，未顯示顯著一致性。結論指出，雖然ChatGPT 4 Omni有潛力，但仍需改進與訓練，以提升其在臨床中的應用效果。 PubMed DOI

Evaluating the Use of Generative Artificial Intelligence to Support Genetic Counseling for Rare Diseases.
評估生成性人工智慧在罕見疾病遺傳諮詢中的應用。 Diagnostics (Basel) 2025-03-28

本研究探討生成式人工智慧（AI）在罕見疾病資訊上的準確性與安全性。研究評估了四個AI模型的回答，結果顯示大部分模型提供的資訊相對可靠，但仍有不準確的情況，可能讓患者及其家庭感到困惑。特別是Perplexity模型的表現較差，低分比例較高。研究強調了解AI的局限性並提供專家指導的重要性，以確保患者能有效利用這些工具。 PubMed DOI

Comparative assessment of artificial intelligence chatbots' performance in responding to healthcare professionals' and caregivers' questions about Dravet syndrome.
人工智慧聊天機器人在回答醫療專業人員和照顧者關於 Dravet syndrome 問題的表現比較評估。 Epilepsia Open 2025-04-01

這項研究評估了兩個AI聊天機器人，ChatGPT 3.5和Perplexity，針對Dravet症候群的問題回答表現。從醫療專業人員和照顧者收集了96個問題，並由癲癇專家評分。主要發現包括：ChatGPT 3.5的準確率為66.7%，而Perplexity為81.3%。兩者在治療問題上表現不佳，完整性方面，ChatGPT 3.5為73.4%，Perplexity為75.7%。ChatGPT 3.5能修正55.6%的錯誤，Perplexity則為80%。可讀性上，Perplexity優於ChatGPT 3.5。研究顯示AI在醫療資訊提供上有潛力，但仍需改善。 PubMed DOI

ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports.
基於病例報告，ChatGPT 協助診斷神經眼科疾病 J Neuroophthalmol 2025-08-20

這項研究用22個神經眼科病例，比較ChatGPT（GPT-3.5和GPT-4）和兩位專科醫師的診斷能力。GPT-3.5正確率59%，GPT-4有82%，醫師則是86%。GPT-4的表現已經接近專科醫師，顯示AI有潛力協助診斷複雜眼腦疾病，尤其在缺乏專科醫師的地區。不過，臨床應用前還需要更多驗證安全性與可靠性。 PubMed DOI

原始文章

站上相關主題文章列表