Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Artificial Intelligence in Diagnosing and Managing Vascular Surgery Patients: An Experimental Study Using the GPT-4 Model.
人工智慧在血管外科病患診斷與管理中的應用：使用 GPT-4 模型的實驗研究。 Ann Vasc Surg 2024-11-25

人工智慧（AI）在各科學領域的應用日益增多，尤其是機器學習和自然語言處理（NLP）。本研究評估了GPT-4 AI模型在血管外科病人診斷與管理的表現，測試了57個臨床情境。結果顯示，該模型正確回答超過65%的問題，但在解釋複雜情境時仍有27%的錯誤，且14%的不準確來自過時資訊。總體而言，GPT-4具潛力成為臨床醫師的輔助工具，但仍需謹慎檢查其推理準確性。 PubMed DOI

Human vs Machine: The Future of Decision-making in Plastic and Reconstructive Surgery.
人類與機器：整形與重建外科決策的未來。 Aesthet Surg J 2025-01-25

人工智慧（AI）在整形外科的應用潛力巨大，能提升病人照護的各個階段，包括術前規劃、手術執行和術後管理。一項研究比較了OpenAI的ChatGPT-4o（omni）和Alphabet的Gemini Advanced兩個AI模型在持續醫學教育（CME）文章的學習能力。結果顯示，人類住院醫師在閱讀後的分數明顯提升，而Gemini Advanced的表現更佳，顯示AI在醫學教育中可作為有效的輔助工具，幫助縮短理論與實踐之間的差距。 PubMed DOI

Performance evaluation of ChatGPT-4.0 and Gemini on image-based neurosurgery board practice questions: A comparative analysis.
ChatGPT-4.0 與 Gemini 在影像基礎神經外科考試問題上的表現評估：比較分析。 J Clin Neurosci 2025-02-12

這項研究比較了兩個大型語言模型，ChatGPT-4.0 和 Gemini，在解釋神經外科影像問題上的表現。研究提出250個問題，結果顯示ChatGPT-4.0的正確回答率為33.6%，明顯優於Gemini的0.4%。在某本教科書的問題中，ChatGPT-4.0的正確率達50%，而另一個教科書則為17.7%。Gemini的「無法回答」率高，顯示其在影像解釋上存在困難。這些結果顯示，AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

Artificial intelligence-based chatbot assistance in clinical decision-making for medically complex patients in oral surgery: a comparative study.
基於人工智慧的聊天機器人在口腔外科醫療複雜患者臨床決策中的輔助作用：一項比較研究。 BMC Oral Health 2025-03-07

這項研究評估了基於人工智慧的聊天機器人，特別是ChatGPT 3.5和Claude-instant，在複雜口腔外科案例中輔助臨床決策的效果。口腔及顏面外科醫生設計了一系列問題，並透過專業評估工具來檢視聊天機器人的回應質量。結果顯示，ChatGPT和Claude-instant都提供高質量的回應，ChatGPT的質量評分分別為86%和79.6%，而Claude-instant則為81.25%和89%。這些結果顯示聊天機器人技術的進步，可能提升醫療效率並降低成本。 PubMed DOI

The Performance of Artificial Intelligence in One Anastomosis Gastric Bypass Surgery: Comparative Efficacy of ChatGPT-4.0, ChatGPT-Omni, and Gemini AI.
人工智慧在單吻合胃旁路手術中的表現：ChatGPT-4.0、ChatGPT-Omni 和 Gemini AI 的比較效能。 Obes Surg 2025-03-18

將人工智慧（AI）應用於醫療，特別是複雜的單吻合胃旁路手術（OAGB），能顯著提升決策支持。本研究評估了三個AI模型：ChatGPT-4.0、ChatGPT-Omni和Gemini AI，針對OAGB的180個問題進行分析。結果顯示，ChatGPT-Omni在準確性上優於其他兩者，尤其在是非題和多選題中表現突出，平均得分為5.62。儘管如此，研究也指出在更複雜的臨床情境中，仍需進一步驗證AI的效能，強調持續研究的重要性。 PubMed DOI

Assessing AI Accuracy in Generating CPT Codes From Surgical Operative Notes.
評估人工智慧在從外科手術記錄中生成 CPT 代碼的準確性。 J Craniofac Surg 2025-03-24

這項研究探討大型語言模型（LLMs），特別是ChatGPT和Gemini，在根據手術記錄生成當前程序術語（CPT）代碼的有效性。分析了10個案例，將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似，準確性無顯著差異。Gemini的正確回應率稍高（30%對20%），而ChatGPT則有更多部分正確的回應（50%對40%）。研究指出，AI有潛力提升編碼準確性並減少醫療帳單的行政負擔，未來將探討其在其他外科領域的應用。 PubMed DOI

Breaking Bones, Breaking Barriers: ChatGPT, DeepSeek, and Gemini in Hand Fracture Management.
打破骨頭，打破障礙：ChatGPT、DeepSeek 和 Gemini 在手部骨折管理中的應用。 J Clin Med 2025-03-27

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性，並與經驗豐富的外科醫生進行比較。結果顯示，ChatGPT-4o的準確率最高，但精確度較低；DeepSeek-V3表現中等，偶爾漏掉正確方案；而Gemini 1.5則表現不佳。結論指出，雖然AI能增強臨床流程，但在複雜案例中仍無法取代人類專業，且需解決倫理問題才能廣泛應用。 PubMed DOI

Artificial Intelligence in Surgical Coding: Evaluating Large Language Models for Current Procedural Terminology Accuracy in Hand Surgery.
手術編碼中的人工智慧：評估大型語言模型在手部外科當前程序術語準確性中的表現。 J Hand Surg Glob Online 2025-04-04

這項研究分析了五種大型語言模型（LLMs）在識別手部手術的CPT代碼上的表現，包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和4.0。研究發現，Perplexity.AI在簡單程序中表現最佳，獲得15個正確結果，而對於複雜程序，則只有Perplexity.AI和Bard各有三個正確結果。這顯示AI模型在手術編碼中有潛力提升效率與準確性，未來可能成為醫療工作流程的標準部分，符合數位轉型的趨勢。 PubMed DOI

The Growing Role of Artificial Intelligence in Surgical Education: ChatGPT Undertakes the Australian Generic Surgical Sciences Examination.
人工智慧在外科教育中日益增長的角色：ChatGPT 參與澳洲通用外科科學考試 ANZ J Surg 2025-05-30

ChatGPT 在通用外科考試拿到 72.7 分，超過及格線，生理學和選擇題表現不錯，但解剖學和需要分析的題目比較弱。雖然有潛力協助醫學教育，但還有不少限制，未來要再多研究和評估，才能廣泛應用。 PubMed DOI

原始文章

站上相關主題文章列表