Assessment of Artificial Intelligence Platforms With Regard to Medical Microbiology Knowledge: An Analysis of ChatGPT and Gemini.
評估人工智慧平台在醫學微生物知識方面的表現：對ChatGPT和Gemini的分析。 Cureus 2024-05-21

研究比較了ChatGPT 3.5和Gemini回答200個微生物學問題的表現，兩者準確率約70%。Gemini在微生物學和免疫學表現較佳，ChatGPT 3.5則在應用微生物學方面表現突出。研究指出，這些人工智慧平台在微生物學和醫學教育上有潛力，但仍需進一步改進以提升表現。 PubMed DOI

The performance of OpenAI ChatGPT-4 and Google Gemini in virology multiple-choice questions: a comparative analysis of English and Arabic responses.
OpenAI ChatGPT-4 與 Google Gemini 在病毒學多選題的表現：英語與阿拉伯語回應的比較分析。 BMC Res Notes 2024-09-03

這項研究評估了兩個人工智慧模型，ChatGPT-4 和 Gemini，在回答病毒學多選題的表現，涵蓋英語和阿拉伯語。研究使用 CLEAR 工具分析了 40 道題目的回答正確性，結果顯示 ChatGPT-4 在兩種語言中均優於 Gemini，英語正確率分別為 80% 和 62.5%，阿拉伯語則為 65% 和 55%。兩者在較低認知領域表現較佳，結果顯示人工智慧在醫療教育中的潛力，並強調了提升多語言有效性的必要性。 PubMed DOI

Gemini AI vs. ChatGPT: A comprehensive examination alongside ophthalmology residents in medical knowledge.
Gemini AI 與 ChatGPT：與眼科住院醫師在醫學知識上的全面比較。 Graefes Arch Clin Exp Ophthalmol 2024-09-15

這項研究探討了先進的人工智慧模型，特別是ChatGPT和Google的Gemini AI，在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現，使用了600道來自以色列住院醫師考試的問題。結果顯示，Gemini Advanced的準確率最高，達66%，其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色，並指出需要進一步改進，以提升其在不同子專科的有效性，對改善病人護理具有潛力。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Comparison of Gemini Advanced and ChatGPT 4.0's Performances on the Ophthalmology Resident Ophthalmic Knowledge Assessment Program (OKAP) Examination Review Question Banks.
Gemini Advanced 與 ChatGPT 4.0 在眼科住院醫師眼科知識評估計畫 (OKAP) 考試複習題庫上的表現比較。 Cureus 2024-10-18

這項研究系統性評估了兩個語言學習模型，ChatGPT-4.0 和 Google Bard 的 Gemini Advanced，在眼科問題的回答表現。使用眼科知識評估計畫的題庫，測試了260道選擇題。結果顯示，ChatGPT-4.0 在文字問題上的準確率為57.14%，高於 Gemini Advanced 的46.72%；在簡單問題上，ChatGPT-4.0 得分68.99%，而 Gemini Advanced 為49.61%。在圖像問題上，ChatGPT-4.0 的正確率為39.58%，Gemini Advanced 為33.33%。研究結論認為，ChatGPT-4.0 在眼科選擇題上表現較佳，顯示其在醫學教育中的潛力，但仍需進一步評估其可靠性。 PubMed DOI

Using large language models (ChatGPT, Copilot, PaLM, Bard, and Gemini) in Gross Anatomy course: Comparative analysis.
在大體解剖課程中使用大型語言模型（ChatGPT、Copilot、PaLM、Bard 和 Gemini）：比較分析。 Clin Anat 2024-11-22

這項研究評估了六個生成式人工智慧大型語言模型（LLMs）在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示，ChatGPT-4的準確率最高，達60.5%，其次是Copilot（42.0%）和ChatGPT-3.5（41.0%）。雖然這些模型尚未能完全取代解剖學教育者，但它們在醫學教育中仍具備實用價值。 PubMed DOI

Performance evaluation of ChatGPT-4.0 and Gemini on image-based neurosurgery board practice questions: A comparative analysis.
ChatGPT-4.0 與 Gemini 在影像基礎神經外科考試問題上的表現評估：比較分析。 J Clin Neurosci 2025-02-12

這項研究比較了兩個大型語言模型，ChatGPT-4.0 和 Gemini，在解釋神經外科影像問題上的表現。研究提出250個問題，結果顯示ChatGPT-4.0的正確回答率為33.6%，明顯優於Gemini的0.4%。在某本教科書的問題中，ChatGPT-4.0的正確率達50%，而另一個教科書則為17.7%。Gemini的「無法回答」率高，顯示其在影像解釋上存在困難。這些結果顯示，AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

Comparative analysis of ChatGPT and Gemini (Bard) in medical inquiry: a scoping review.
醫學查詢中 ChatGPT 與 Gemini (Bard) 的比較分析：範疇回顧。 Front Digit Health 2025-02-18

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度，基於2023年1月到10月的研究。從64篇論文中，11篇符合標準，涉及1,177個樣本。結果顯示，ChatGPT在準確性上普遍優於Gemini，尤其在放射學方面（87.43%對71%），且回應較短（907字元對1,428字元）。不過，Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示，ChatGPT在準確性和回應長度上均顯著優於Gemini，建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

Comparison of ChatGPT-4, Copilot, Bard and Gemini Ultra on an Otolaryngology Question Bank.
耳鼻喉科問題庫中 ChatGPT-4、Copilot、Bard 和 Gemini Ultra 的比較。 Clin Otolaryngol 2025-03-13

這項研究評估了四個大型語言模型（LLMs）的表現，包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra，專注於耳鼻喉科的題庫。共收集350道選擇題，結果顯示Gemini Ultra準確率最高，達79.8%，GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長，且包含解釋性圖片，而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題，顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

原始文章

站上相關主題文章列表