隨著神經外科文獻不斷增加,手動篩選系統評價和指導方針的摘要變得越來越困難。為了解決這個問題,我們評估了兩個大型語言模型(LLMs),Gemini Pro 和 ChatGPT-4o-mini,針對美國神經外科醫學會的 Chiari I 畸形指導方針進行自動篩選。測試結果顯示,Gemini Pro 的敏感性高達 95%,特異性 60%,而 ChatGPT-4o-mini 的敏感性僅 18%,但特異性高達 95%。兩者都能在一小時內完成篩選,顯著縮短時間。這些結果顯示 LLM 在神經外科摘要篩選上的潛力,未來可能幫助醫學領域的指導方針實時更新。
PubMed
DOI