Large Language Models for Intraoperative Decision Support in Plastic Surgery: A Comparison between ChatGPT-4 and Gemini.
大型語言模型在整形外科手術中的術中決策支持：ChatGPT-4和Gemini之間的比較。 Medicina (Kaunas) 2024-06-27

研究比較了ChatGPT-4和Gemini Pro兩個語言模型在整形外科手術決策支援的表現。ChatGPT-4準確性和相關性較佳，Gemini則回應更快且易讀。兩者皆有應用潛力，但需進一步訓練和優化以確保可靠性。 PubMed DOI

The Comparative Performance of Large Language Models on the Hand Surgery Self-Assessment Examination.
大型語言模型在手外科自我評估考試中的比較表現。 Hand (N Y) 2024-09-26

這項研究評估了生成式人工智慧模型，特別是 ChatGPT 4.0 和 Bing AI，在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題，結果顯示 ChatGPT 4.0 平均得分66.5%，而 Bing AI 則為75.3%，超過 ChatGPT 8.8%。兩者均超過最低及格分數50%，但在涉及圖片和視頻的問題上表現較差。整體來看，這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

Evaluating the Performance of ChatGPT, Gemini, and Bing Compared with Resident Surgeons in the Otorhinolaryngology In-service Training Examination.
評估 ChatGPT、Gemini 和 Bing 在耳鼻喉科住院醫師在職訓練考試中的表現。 Turk Arch Otorhinolaryngol 2024-10-28

大型語言模型（LLMs）如ChatGPT（GPT-4）、Gemini和Bing在醫學教育上展現潛力，特別是在臨床管理和住院醫師考試準備方面。一項針對耳鼻喉科住院醫師的研究顯示，GPT-4的準確率為54.75%，優於Gemini（40.50%）和Bing（37.00%）。高年級住院醫師的準確率達75.5%，明顯高於LLMs。雖然LLMs能與準高年級住院醫師相當，但仍未達到更有經驗的住院醫師的準確性，顯示在醫學教育中有潛在應用價值。 PubMed DOI

Performance evaluation of ChatGPT-4.0 and Gemini on image-based neurosurgery board practice questions: A comparative analysis.
ChatGPT-4.0 與 Gemini 在影像基礎神經外科考試問題上的表現評估：比較分析。 J Clin Neurosci 2025-02-12

這項研究比較了兩個大型語言模型，ChatGPT-4.0 和 Gemini，在解釋神經外科影像問題上的表現。研究提出250個問題，結果顯示ChatGPT-4.0的正確回答率為33.6%，明顯優於Gemini的0.4%。在某本教科書的問題中，ChatGPT-4.0的正確率達50%，而另一個教科書則為17.7%。Gemini的「無法回答」率高，顯示其在影像解釋上存在困難。這些結果顯示，AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

Comparison of ChatGPT-4, Copilot, Bard and Gemini Ultra on an Otolaryngology Question Bank.
耳鼻喉科問題庫中 ChatGPT-4、Copilot、Bard 和 Gemini Ultra 的比較。 Clin Otolaryngol 2025-03-13

這項研究評估了四個大型語言模型（LLMs）的表現，包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra，專注於耳鼻喉科的題庫。共收集350道選擇題，結果顯示Gemini Ultra準確率最高，達79.8%，GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長，且包含解釋性圖片，而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題，顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

Accuracy and quality of ChatGPT-4o and Google Gemini performance on image-based neurosurgery board questions.
ChatGPT-4o 和 Google Gemini 在影像基礎神經外科考試問題上的準確性和質量。 Neurosurg Rev 2025-03-25

這項研究評估了兩個大型語言模型（LLMs），GPT-4o 和 Google Gemini，在神經外科考試影像問題上的表現。共分析379個問題，結果顯示GPT-4o的正確率為51.45%，明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出，且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高，但兩者在影像問題上的表現仍不及傳統考試，顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

Comparative Analysis of ChatGPT-4o and Gemini Advanced Performance on Diagnostic Radiology In-Training Exams.
ChatGPT-4o 與 Gemini Advanced 在放射診斷住院醫師訓練考試表現的比較分析 Cureus 2025-04-21

這項研究發現，ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好，尤其在影像型題目上較突出，但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯，但影像判讀還有進步空間，顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

Transforming Neurosurgical Practice with Large Language Models: Comparative Performance of ChatGPT-Omni and Gemini in Complex Case Management.
以大型語言模型革新神經外科實務：ChatGPT-Omni 與 Gemini 在複雜病例管理中的表現比較 World Neurosurg 2025-05-22

這項研究比較ChatGPT-Omni和Gemini兩款AI在500題神經外科案例題的表現。結果顯示，ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini好，不論初次還是後續評估都領先。雖然兩者都有進步，但ChatGPT-Omni在所有神經外科情境下表現都較佳，更適合用於臨床決策和教育輔助。 PubMed DOI

Transforming neurosurgical practice with large language models: comparative performance of ChatGPT-omni and Gemini in complex case management.
以大型語言模型革新神經外科實踐：ChatGPT-omni 與 Gemini 在複雜病例管理中的表現比較 J Neurosurg Sci 2025-06-05

這項研究比較ChatGPT-Omni和Gemini兩款AI語言模型在500題神經外科案例題的表現。結果顯示，ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini優秀，不論初次或後續測試都拿到較高分。雖然兩者都有進步，但ChatGPT-Omni始終領先，顯示它在神經外科決策和教學上很有潛力。 PubMed DOI

Evaluating Large Language Models on American Board of Anesthesiology-style Anesthesiology Questions: Accuracy, Domain Consistency, and Clinical Implications.
以美國麻醉科醫學會（American Board of Anesthesiology）風格麻醉學試題評估大型語言模型：準確性、領域一致性與臨床意涵 J Cardiothorac Vasc Anesth 2025-06-15

五款主流大型語言模型（如ChatGPT-4、Gemini等）在麻醉學考題測試中都拿到高分，彼此表現差不多，顯示未來有望協助醫學教育和臨床決策。不過，還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI

原始文章

站上相關主題文章列表