原始文章

隨著神經外科文獻不斷增加,手動篩選系統評價和指導方針的摘要變得越來越困難。為了解決這個問題,我們評估了兩個大型語言模型(LLMs),Gemini Pro 和 ChatGPT-4o-mini,針對美國神經外科醫學會的 Chiari I 畸形指導方針進行自動篩選。測試結果顯示,Gemini Pro 的敏感性高達 95%,特異性 60%,而 ChatGPT-4o-mini 的敏感性僅 18%,但特異性高達 95%。兩者都能在一小時內完成篩選,顯著縮短時間。這些結果顯示 LLM 在神經外科摘要篩選上的潛力,未來可能幫助醫學領域的指導方針實時更新。 PubMed DOI


站上相關主題文章列表

研究發現使用ChatGPT在放射學文獻篩選上有潛力,能快速且省時,但準確度仍需提升。未來需進一步研究改善其表現,確保在各醫學領域皆可靈活運用。 PubMed DOI

研究比較ChatGPT 4和Gemini Advanced在頭頸癌治療建議上的表現,發現ChatGPT 4較Gemini Advanced更遵循指引且治療規劃更全面。兩者在支持腫瘤學評估方面表現不錯,但仍有改進空間。研究強調持續更新和驗證的重要性,以更好整合人工智慧到醫療實務。 PubMed DOI

人工智慧的進步帶來了像ChatGPT和Bard這樣的語言模型,可以產生類似人類寫作的文字。研究比較了它們在撰寫脊椎外科結構摘要方面的表現。結果發現,ChatGPT的摘要符合期刊指南,而Bard的字數更準確,且與人類撰寫的摘要更相似。人工智慧檢測難以區分人工智慧和人類生成的摘要,引發道德疑慮。使用這些工具時需謹慎。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,在提供小兒骨科疾病建議的可靠性,並參考了美國骨科醫學會(AAOS)的指導方針。結果顯示,ChatGPT和Gemini的符合率分別為67%和69%,差異不大。值得注意的是,ChatGPT沒有引用任何研究,而Gemini則參考了16項研究,但大多數存在錯誤或不一致。總體來看,這些模型雖然在某程度上符合指導方針,但仍有許多中立或不正確的陳述,顯示醫療AI模型需改進與提高透明度。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

這項研究評估了ChatGPT 3.5和4在創建神經外科文獻摘要的有效性。研究隨機選取150篇2023年發表的摘要,並比較其可讀性與準確性。結果顯示,兩個模型生成的摘要在可讀性上顯著優於原始摘要,GPT3.5的閱讀年級為7.80,GPT4為7.70。科學準確性方面,68.4%的GPT3.5摘要和84.2%的GPT4摘要被醫師評為中等準確性。研究指出,GPT4在改善病人教育上具有潛力,能讓神經外科文獻更易理解。 PubMed DOI

這項研究評估了四個生成式人工智慧模型在回答2023年神經外科醫師大會對Chiari 1畸形指導方針問題的表現。研究提出十三個問題,結果顯示Perplexity的符合率最高,達69.2%,而ChatGPT 4o最低,僅23.1%。Copilot和Gemini的符合率分別為61.5%和30.8%。所有模型的可讀性都很高,顯示出理解上的困難。研究強調,雖然AI能協助臨床,但醫生在解讀AI回應時的判斷仍然至關重要。 PubMed DOI

圍手術期神經認知障礙(PNDs)是手術後常見的併發症,特別在老年人中,會增加健康風險和醫療成本。研究評估了ChatGPT-4和Gemini在PND管理建議的有效性,並與現有指導方針比較。這項2024年6月的研究使用「圍手術期神經認知障礙的護理方案表」生成AI建議,並由來自五國的評審進行評估。結果顯示,兩者的建議與指導方針相似,但仍需進一步驗證和臨床醫師的反饋,才能應用於臨床。 PubMed DOI

這項研究發現,像ChatGPT-4等大型語言模型在協助制定臨床指引時,能幫忙搜尋資料和草擬建議,但還無法獨立完成系統性文獻搜尋和評估偏誤。雖然LLM產出的指引品質稍低於專家,但整體表現相近,有潛力節省時間和資源,未來還需更多研究和合作才能安全應用於臨床。 PubMed DOI