Evaluation of the accuracy and readability of ChatGPT-4 and Google Gemini in providing information on retinal detachment: a multicenter expert comparative study.
關於視網膜脫落資訊的 ChatGPT-4 和 Google Gemini 準確性及可讀性的評估：一項多中心專家比較研究。 Int J Retina Vitreous 2024-09-02

這項研究評估了兩個大型語言模型，ChatGPT-4 和 Google Gemini，針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題，並由十位專家評分。結果顯示，Google Gemini 較易理解，但 ChatGPT-4 在正確答案上表現更佳，尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini，且在簡單和困難問題上都獲得更高評分。整體而言，這兩個 AI 工具有效提供準確的醫療資訊，建議可增強醫療護理。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Evaluating ChatGPT and Google Gemini Performance and Implications in Turkish Dental Education.
評估 ChatGPT 和 Google Gemini 在土耳其牙科教育中的表現及其影響。 Cureus 2025-01-13

這項研究分析了四個先進的人工智慧模型在回答土耳其牙科專業考試問題的表現，共240題。結果顯示，Gemini 2.0 Advanced在2020年以96.80%的準確率最佳，2021年則是ChatGPT-o1以97.88%領先。整體來看，ChatGPT-o1和Gemini 2.0的準確率分別為97.46%和97.90%，明顯優於其他模型。研究也指出，使用AI評估牙科能力的倫理問題，並建議對考試知識進行更嚴格的評估，強調AI在牙科教育中的潛在應用。 PubMed DOI

Performance evaluation of ChatGPT-4.0 and Gemini on image-based neurosurgery board practice questions: A comparative analysis.
ChatGPT-4.0 與 Gemini 在影像基礎神經外科考試問題上的表現評估：比較分析。 J Clin Neurosci 2025-02-12

這項研究比較了兩個大型語言模型，ChatGPT-4.0 和 Gemini，在解釋神經外科影像問題上的表現。研究提出250個問題，結果顯示ChatGPT-4.0的正確回答率為33.6%，明顯優於Gemini的0.4%。在某本教科書的問題中，ChatGPT-4.0的正確率達50%，而另一個教科書則為17.7%。Gemini的「無法回答」率高，顯示其在影像解釋上存在困難。這些結果顯示，AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

Comparative analysis of ChatGPT and Gemini (Bard) in medical inquiry: a scoping review.
醫學查詢中 ChatGPT 與 Gemini (Bard) 的比較分析：範疇回顧。 Front Digit Health 2025-02-18

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度，基於2023年1月到10月的研究。從64篇論文中，11篇符合標準，涉及1,177個樣本。結果顯示，ChatGPT在準確性上普遍優於Gemini，尤其在放射學方面（87.43%對71%），且回應較短（907字元對1,428字元）。不過，Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示，ChatGPT在準確性和回應長度上均顯著優於Gemini，建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

Comparison of ChatGPT-4, Copilot, Bard and Gemini Ultra on an Otolaryngology Question Bank.
耳鼻喉科問題庫中 ChatGPT-4、Copilot、Bard 和 Gemini Ultra 的比較。 Clin Otolaryngol 2025-03-13

這項研究評估了四個大型語言模型（LLMs）的表現，包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra，專注於耳鼻喉科的題庫。共收集350道選擇題，結果顯示Gemini Ultra準確率最高，達79.8%，GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長，且包含解釋性圖片，而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題，顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models.
大型語言模型在葡萄膜炎和眼部炎症管理中的比較：ChatGPT-4o、Google Gemini 1.5 Pro、Microsoft Copilot Pro 與眼科醫生的比較研究。 J Fr Ophtalmol 2025-03-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現，並與眼科醫生進行比較。研究隨機選取100個問題，結果顯示LLMs的正確回答率為80%至81%，而眼科醫生為72%。儘管LLMs的準確率較高，但統計分析顯示它們之間及與人類醫生之間並無顯著差異，因此無法證明LLMs在此領域的優越性。 PubMed DOI

Accuracy and quality of ChatGPT-4o and Google Gemini performance on image-based neurosurgery board questions.
ChatGPT-4o 和 Google Gemini 在影像基礎神經外科考試問題上的準確性和質量。 Neurosurg Rev 2025-03-25

這項研究評估了兩個大型語言模型（LLMs），GPT-4o 和 Google Gemini，在神經外科考試影像問題上的表現。共分析379個問題，結果顯示GPT-4o的正確率為51.45%，明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出，且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高，但兩者在影像問題上的表現仍不及傳統考試，顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

Evaluating the Accuracy of Gemini 2.0 Advanced and ChatGPT 4o in Cataract Knowledge: A Performance Analysis Using Brazilian Council of Ophthalmology Board Exam Questions.
評估 Gemini 2.0 Advanced 和 ChatGPT 4o 在白內障知識上的準確性：使用巴西眼科醫學會考試問題的表現分析。 Cureus 2025-03-27

這項研究評估了大型語言模型（LLMs），特別是Gemini 2.0 Advanced和ChatGPT-4o，在回答巴西眼科醫學考試中與白內障相關問題的準確性。分析了221道選擇題，結果顯示Gemini的準確率為85.45%和80.91%，而ChatGPT的得分為80.00%和84.09%。評估者之間的協議程度中等，Gemini的Cohen's kappa值為0.514，ChatGPT為0.431。整體而言，這兩個模型展現了高準確性，顯示出在醫學教育上的潛力，但仍需進一步改進和驗證。 PubMed DOI

Comparative Analysis of ChatGPT-4o and Gemini Advanced Performance on Diagnostic Radiology In-Training Exams.
ChatGPT-4o 與 Gemini Advanced 在放射診斷住院醫師訓練考試表現的比較分析 Cureus 2025-04-21

這項研究發現，ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好，尤其在影像型題目上較突出，但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯，但影像判讀還有進步空間，顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

原始文章

站上相關主題文章列表