Large Language Models for Intraoperative Decision Support in Plastic Surgery: A Comparison between ChatGPT-4 and Gemini.
大型語言模型在整形外科手術中的術中決策支持：ChatGPT-4和Gemini之間的比較。 Medicina (Kaunas) 2024-06-27

研究比較了ChatGPT-4和Gemini Pro兩個語言模型在整形外科手術決策支援的表現。ChatGPT-4準確性和相關性較佳，Gemini則回應更快且易讀。兩者皆有應用潛力，但需進一步訓練和優化以確保可靠性。 PubMed DOI

Gemini AI vs. ChatGPT: A comprehensive examination alongside ophthalmology residents in medical knowledge.
Gemini AI 與 ChatGPT：與眼科住院醫師在醫學知識上的全面比較。 Graefes Arch Clin Exp Ophthalmol 2024-09-15

這項研究探討了先進的人工智慧模型，特別是ChatGPT和Google的Gemini AI，在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現，使用了600道來自以色列住院醫師考試的問題。結果顯示，Gemini Advanced的準確率最高，達66%，其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色，並指出需要進一步改進，以提升其在不同子專科的有效性，對改善病人護理具有潛力。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Performance evaluation of ChatGPT-4.0 and Gemini on image-based neurosurgery board practice questions: A comparative analysis.
ChatGPT-4.0 與 Gemini 在影像基礎神經外科考試問題上的表現評估：比較分析。 J Clin Neurosci 2025-02-12

這項研究比較了兩個大型語言模型，ChatGPT-4.0 和 Gemini，在解釋神經外科影像問題上的表現。研究提出250個問題，結果顯示ChatGPT-4.0的正確回答率為33.6%，明顯優於Gemini的0.4%。在某本教科書的問題中，ChatGPT-4.0的正確率達50%，而另一個教科書則為17.7%。Gemini的「無法回答」率高，顯示其在影像解釋上存在困難。這些結果顯示，AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

Artificial Intelligence and Gynecological Oncology: A Comparative Study of ChatGPT-Omni and Gemini-Pro Across Repeated Intervals with Case Scenario and Open-Ended Queries.
人工智慧與婦科腫瘤學：ChatGPT-Omni 與 Gemini-Pro 在重複時間間隔下的案例情境與開放式問題的比較研究。 Oncol Res Treat 2025-03-12

這項研究比較了兩個人工智慧模型，ChatGPT-4o (Omni) 和 Gemini-pro，在婦科腫瘤學的臨床問題解決上。研究分析了700個問題，結果顯示Omni在準確性和遵循臨床指導方針上明顯優於Gemini-pro。基本開放式問題的平均得分分別為5.9和5.1，複雜問題則為5.6和4.2。Omni的回應更準確，且隨著時間表現持續改善，顯示其在臨床應用中的潛力。 PubMed DOI

The Performance of Artificial Intelligence in One Anastomosis Gastric Bypass Surgery: Comparative Efficacy of ChatGPT-4.0, ChatGPT-Omni, and Gemini AI.
人工智慧在單吻合胃旁路手術中的表現：ChatGPT-4.0、ChatGPT-Omni 和 Gemini AI 的比較效能。 Obes Surg 2025-03-18

將人工智慧（AI）應用於醫療，特別是複雜的單吻合胃旁路手術（OAGB），能顯著提升決策支持。本研究評估了三個AI模型：ChatGPT-4.0、ChatGPT-Omni和Gemini AI，針對OAGB的180個問題進行分析。結果顯示，ChatGPT-Omni在準確性上優於其他兩者，尤其在是非題和多選題中表現突出，平均得分為5.62。儘管如此，研究也指出在更複雜的臨床情境中，仍需進一步驗證AI的效能，強調持續研究的重要性。 PubMed DOI

Accuracy and quality of ChatGPT-4o and Google Gemini performance on image-based neurosurgery board questions.
ChatGPT-4o 和 Google Gemini 在影像基礎神經外科考試問題上的準確性和質量。 Neurosurg Rev 2025-03-25

這項研究評估了兩個大型語言模型（LLMs），GPT-4o 和 Google Gemini，在神經外科考試影像問題上的表現。共分析379個問題，結果顯示GPT-4o的正確率為51.45%，明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出，且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高，但兩者在影像問題上的表現仍不及傳統考試，顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

Can American Board of Surgery in Training Examinations be passed by Large Language Models? Comparative assessment of Gemini, Copilot, and ChatGPT.
大型語言模型能通過美國外科醫學會住院醫師訓練考試嗎？Gemini、Copilot 與 ChatGPT 的比較性評估 Am Surg 2025-05-12

這份研究比較了ChatGPT-4、Copilot和Gemini三款大型語言模型在美國外科住院醫師考題上的表現。結果顯示，ChatGPT和Copilot的正確率都接近八成，表現差不多；但Gemini的正確率只有五成多，尤其在定義題和臨床案例題上更弱。總結來說，Gemini的準確度明顯落後。 PubMed DOI

Transforming neurosurgical practice with large language models: comparative performance of ChatGPT-omni and Gemini in complex case management.
以大型語言模型革新神經外科實踐：ChatGPT-omni 與 Gemini 在複雜病例管理中的表現比較 J Neurosurg Sci 2025-06-05

這項研究比較ChatGPT-Omni和Gemini兩款AI語言模型在500題神經外科案例題的表現。結果顯示，ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini優秀，不論初次或後續測試都拿到較高分。雖然兩者都有進步，但ChatGPT-Omni始終領先，顯示它在神經外科決策和教學上很有潛力。 PubMed DOI

Assessing Diagnostic Precision and Therapeutic Guidance Using Artificial Intelligence in Functional Neurosurgery Cases.
運用人工智慧於功能性神經外科病例中評估診斷精確度與治療指引 Cureus 2025-06-06

這項研究比較了五種AI模型在神經外科診斷和治療建議上的表現，發現AtlasGPT最優秀。不過，各模型表現落差大，顯示AI還沒辦法直接應用在臨床，需要持續改進和嚴格監督。整體來說，AI有潛力協助神經外科決策，但導入臨床還要很謹慎。 PubMed DOI

原始文章

站上相關主題文章列表