原始文章

這項研究比較了五種AI模型在神經外科診斷和治療建議上的表現,發現AtlasGPT最優秀。不過,各模型表現落差大,顯示AI還沒辦法直接應用在臨床,需要持續改進和嚴格監督。整體來說,AI有潛力協助神經外科決策,但導入臨床還要很謹慎。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)在複雜醫療案例中的診斷表現。研究分析了392份來自《美國病例報告期刊》的案例,使用了ChatGPT-4、Google Gemini和LLaMA2來生成鑑別診斷清單。結果顯示,ChatGPT-4的前10名診斷中,最終診斷納入率最高,達86.7%,其次是Google Gemini的68.6%和LLaMA2的54.6%。研究顯示ChatGPT-4在診斷準確性上明顯優於其他兩者,突顯了生成式人工智慧在醫療診斷中的潛力。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究探討了ChatGPT在神經學診斷中的輔助潛力。研究人員使用神經學專家的合成數據,評估ChatGPT對各種神經疾病的診斷準確性。結果顯示,ChatGPT的準確率介於68.5%到83.83%之間,與專家神經科醫生的81.66%相當,且高於一般醫生的57.15%。這顯示人工智慧工具如ChatGPT有助於提升臨床診斷的準確性,特別是在神經學領域,未來有望改善醫療實踐和診斷過程。 PubMed DOI

這項研究評估了四個生成式人工智慧模型在回答2023年神經外科醫師大會對Chiari 1畸形指導方針問題的表現。研究提出十三個問題,結果顯示Perplexity的符合率最高,達69.2%,而ChatGPT 4o最低,僅23.1%。Copilot和Gemini的符合率分別為61.5%和30.8%。所有模型的可讀性都很高,顯示出理解上的困難。研究強調,雖然AI能協助臨床,但醫生在解讀AI回應時的判斷仍然至關重要。 PubMed DOI

人工智慧(AI)如ChatGPT-4正在改變醫療保健,特別是在脊椎轉移的治療決策上。本研究評估了ChatGPT-4在五個脊椎轉移案例中的表現,並與五位經驗豐富的脊椎外科醫生進行比較。結果顯示,ChatGPT的建議在73%的案例中與醫生一致,但多數建議偏向一般性,缺乏具體臨床指導。這顯示出AI在複雜醫療決策中的潛力與限制,未來需進一步研究以提升其應用效果。 PubMed DOI

這項研究探討了OpenAI的生成式AI模型o1作為虛擬醫療助手(GPT-NS)在周邊神經手術決策中的應用。透過模擬五個臨床情境,AI協助外科醫生處理病歷、診斷和治療計畫,並提供案例摘要。神經外科專家和住院醫師評估GPT-NS的表現,平均得分4.3。雖然AI在理解臨床問題和案例呈現上表現優異,但在診斷排序和治療建議上仍需改進。研究強調專家評估AI輸出的重要性,並建議未來應提升AI能力並整合進手術流程。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Gemini Advanced,與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題,結果顯示ChatGPT-4o的一致率為73.07%,正確回答38題;而Gemini Advanced為69.23%,正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳,但ChatGPT在治療性問題上較強。整體而言,這些模型在脊椎損傷管理上顯示潛力,但仍有改進空間。 PubMed DOI

將人工智慧(AI)應用於醫療,特別是複雜的單吻合胃旁路手術(OAGB),能顯著提升決策支持。本研究評估了三個AI模型:ChatGPT-4.0、ChatGPT-Omni和Gemini AI,針對OAGB的180個問題進行分析。結果顯示,ChatGPT-Omni在準確性上優於其他兩者,尤其在是非題和多選題中表現突出,平均得分為5.62。儘管如此,研究也指出在更複雜的臨床情境中,仍需進一步驗證AI的效能,強調持續研究的重要性。 PubMed DOI

這項研究比較ChatGPT-Omni和Gemini兩款AI在500題神經外科案例題的表現。結果顯示,ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini好,不論初次還是後續評估都領先。雖然兩者都有進步,但ChatGPT-Omni在所有神經外科情境下表現都較佳,更適合用於臨床決策和教育輔助。 PubMed DOI

這項研究比較ChatGPT-Omni和Gemini兩款AI語言模型在500題神經外科案例題的表現。結果顯示,ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini優秀,不論初次或後續測試都拿到較高分。雖然兩者都有進步,但ChatGPT-Omni始終領先,顯示它在神經外科決策和教學上很有潛力。 PubMed DOI