Diagnostic performance of generative artificial intelligences for a series of complex case reports.
生成式人工智慧在一系列複雜病例報告中的診斷表現。 Digit Health 2024-09-04

這項研究評估了大型語言模型（LLMs）在複雜醫療案例中的診斷表現。研究分析了392份來自《美國病例報告期刊》的案例，使用了ChatGPT-4、Google Gemini和LLaMA2來生成鑑別診斷清單。結果顯示，ChatGPT-4的前10名診斷中，最終診斷納入率最高，達86.7%，其次是Google Gemini的68.6%和LLaMA2的54.6%。研究顯示ChatGPT-4在診斷準確性上明顯優於其他兩者，突顯了生成式人工智慧在醫療診斷中的潛力。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

ChatGPT M.D.: Is there any room for generative AI in neurology?
神經學中是否有生成式人工智慧的應用空間？ PLoS One 2024-10-09

這項研究探討了ChatGPT在神經學診斷中的輔助潛力。研究人員使用神經學專家的合成數據，評估ChatGPT對各種神經疾病的診斷準確性。結果顯示，ChatGPT的準確率介於68.5%到83.83%之間，與專家神經科醫生的81.66%相當，且高於一般醫生的57.15%。這顯示人工智慧工具如ChatGPT有助於提升臨床診斷的準確性，特別是在神經學領域，未來有望改善醫療實踐和診斷過程。 PubMed DOI

Artificial intelligence versus clinical judgement: how accurately do generative models reflect CNS guidelines for chiari malformation?
人工智慧與臨床判斷：生成模型在 Chiari malformation 中對中樞神經系統指導方針的反映準確性如何？ Clin Neurol Neurosurg 2024-11-29

這項研究評估了四個生成式人工智慧模型在回答2023年神經外科醫師大會對Chiari 1畸形指導方針問題的表現。研究提出十三個問題，結果顯示Perplexity的符合率最高，達69.2%，而ChatGPT 4o最低，僅23.1%。Copilot和Gemini的符合率分別為61.5%和30.8%。所有模型的可讀性都很高，顯示出理解上的困難。研究強調，雖然AI能協助臨床，但醫生在解讀AI回應時的判斷仍然至關重要。 PubMed DOI

ChatGPT's Performance in Spinal Metastasis Cases-Can We Discuss Our Complex Cases with ChatGPT?
ChatGPT 在脊椎轉移癌病例中的表現 - 我們能否與 ChatGPT 討論我們的複雜病例？ J Clin Med 2025-01-08

人工智慧（AI）如ChatGPT-4正在改變醫療保健，特別是在脊椎轉移的治療決策上。本研究評估了ChatGPT-4在五個脊椎轉移案例中的表現，並與五位經驗豐富的脊椎外科醫生進行比較。結果顯示，ChatGPT的建議在73%的案例中與醫生一致，但多數建議偏向一般性，缺乏具體臨床指導。這顯示出AI在複雜醫療決策中的潛力與限制，未來需進一步研究以提升其應用效果。 PubMed DOI

Evaluating ChatGPT o1's Capabilities in Peripheral Nerve Surgery: Advancing AI in Clinical Practice.
評估 ChatGPT o1 在周邊神經外科的能力：推進人工智慧在臨床實踐中的應用。 World Neurosurg 2025-02-09

這項研究探討了OpenAI的生成式AI模型o1作為虛擬醫療助手（GPT-NS）在周邊神經手術決策中的應用。透過模擬五個臨床情境，AI協助外科醫生處理病歷、診斷和治療計畫，並提供案例摘要。神經外科專家和住院醫師評估GPT-NS的表現，平均得分4.3。雖然AI在理解臨床問題和案例呈現上表現優異，但在診斷排序和治療建議上仍需改進。研究強調專家評估AI輸出的重要性，並建議未來應提升AI能力並整合進手術流程。 PubMed DOI

Evaluating Artificial Intelligence in Spinal Cord Injury Management: A Comparative Analysis of ChatGPT-4o and Google Gemini Against American College of Surgeons Best Practices Guidelines for Spine Injury.
評估人工智慧在脊髓損傷管理中的應用：ChatGPT-4o 和 Google Gemini 與美國外科醫師學會脊椎損傷最佳實踐指導方針的比較分析。 Global Spine J 2025-02-17

這項研究評估了兩個人工智慧模型，ChatGPT-4o 和 Gemini Advanced，與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題，結果顯示ChatGPT-4o的一致率為73.07%，正確回答38題；而Gemini Advanced為69.23%，正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳，但ChatGPT在治療性問題上較強。整體而言，這些模型在脊椎損傷管理上顯示潛力，但仍有改進空間。 PubMed DOI

The Performance of Artificial Intelligence in One Anastomosis Gastric Bypass Surgery: Comparative Efficacy of ChatGPT-4.0, ChatGPT-Omni, and Gemini AI.
人工智慧在單吻合胃旁路手術中的表現：ChatGPT-4.0、ChatGPT-Omni 和 Gemini AI 的比較效能。 Obes Surg 2025-03-18

將人工智慧（AI）應用於醫療，特別是複雜的單吻合胃旁路手術（OAGB），能顯著提升決策支持。本研究評估了三個AI模型：ChatGPT-4.0、ChatGPT-Omni和Gemini AI，針對OAGB的180個問題進行分析。結果顯示，ChatGPT-Omni在準確性上優於其他兩者，尤其在是非題和多選題中表現突出，平均得分為5.62。儘管如此，研究也指出在更複雜的臨床情境中，仍需進一步驗證AI的效能，強調持續研究的重要性。 PubMed DOI

Transforming Neurosurgical Practice with Large Language Models: Comparative Performance of ChatGPT-Omni and Gemini in Complex Case Management.
以大型語言模型革新神經外科實務：ChatGPT-Omni 與 Gemini 在複雜病例管理中的表現比較 World Neurosurg 2025-05-22

這項研究比較ChatGPT-Omni和Gemini兩款AI在500題神經外科案例題的表現。結果顯示，ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini好，不論初次還是後續評估都領先。雖然兩者都有進步，但ChatGPT-Omni在所有神經外科情境下表現都較佳，更適合用於臨床決策和教育輔助。 PubMed DOI

Transforming neurosurgical practice with large language models: comparative performance of ChatGPT-omni and Gemini in complex case management.
以大型語言模型革新神經外科實踐：ChatGPT-omni 與 Gemini 在複雜病例管理中的表現比較 J Neurosurg Sci 2025-06-05

這項研究比較ChatGPT-Omni和Gemini兩款AI語言模型在500題神經外科案例題的表現。結果顯示，ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini優秀，不論初次或後續測試都拿到較高分。雖然兩者都有進步，但ChatGPT-Omni始終領先，顯示它在神經外科決策和教學上很有潛力。 PubMed DOI

原始文章

站上相關主題文章列表