原始文章

圍手術期神經認知障礙(PNDs)是手術後常見的併發症,特別在老年人中,會增加健康風險和醫療成本。研究評估了ChatGPT-4和Gemini在PND管理建議的有效性,並與現有指導方針比較。這項2024年6月的研究使用「圍手術期神經認知障礙的護理方案表」生成AI建議,並由來自五國的評審進行評估。結果顯示,兩者的建議與指導方針相似,但仍需進一步驗證和臨床醫師的反饋,才能應用於臨床。 PubMed DOI


站上相關主題文章列表

研究比較了三個大型語言模型(LLMs)- ChatGPT-3.5、GPT-4和Gemini-在為整形外科患者提供術後護理建議的表現。結果顯示,這些模型提供的資訊都很準確,其中GPT-3.5在評分上表現最好。Gemini的回應更易讀、更易懂。雖然LLMs在術後護理方面有潛力,但仍需進一步研究和改進,才能成為更完善的資源。 PubMed DOI

這項研究探討了人工智慧(AI)在神經外科手術文檔的應用,分析了36份手術記錄,並利用ChatGPT 4.0撰寫記錄。研究團隊評估了144份記錄,結果顯示AI生成的記錄在準確性(4.44)和組織性(4.54)上表現良好,但內容得分較低(3.73)。可讀性方面,AI記錄的複雜度較高,顯示其在提升神經外科文檔效率上有潛力,但仍需改善內容質量。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,在提供小兒骨科疾病建議的可靠性,並參考了美國骨科醫學會(AAOS)的指導方針。結果顯示,ChatGPT和Gemini的符合率分別為67%和69%,差異不大。值得注意的是,ChatGPT沒有引用任何研究,而Gemini則參考了16項研究,但大多數存在錯誤或不一致。總體來看,這些模型雖然在某程度上符合指導方針,但仍有許多中立或不正確的陳述,顯示醫療AI模型需改進與提高透明度。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

這項研究比較了AI平台ChatGPT-4和Bard Gemini Advanced所生成的知情同意文件,與一名一年級口腔外科住院醫師撰寫的文件。經18位專家評估,結果顯示ChatGPT-4在準確性、完整性和可讀性上均優於Bard和人類撰寫的文件。具體來說,ChatGPT-4的得分在各項目中均為4,而Bard為3,人類同意書也為4。研究強調AI在知情同意過程中的潛力,但也指出需持續評估和整合患者反饋,以確保其在臨床上的有效性。 PubMed DOI

最近的研究評估了ChatGPT在術前麻醉計畫中的表現。研究發現,ChatGPT生成的計畫與資深麻醉顧問的計畫存在一致性,但在心肺風險評估上經常出現分歧。其回應重複,偏好全身麻醉,且缺乏局部麻醉技術,氣道管理和術後鎮痛建議也不一致。雖然某些差異不顯著,但對高風險患者的建議被認為不當。總體來看,ChatGPT的麻醉計畫未達臨床標準,未來需進一步評估其在臨床中的應用。 PubMed DOI

這項研究評估了四個生成式人工智慧模型在回答2023年神經外科醫師大會對Chiari 1畸形指導方針問題的表現。研究提出十三個問題,結果顯示Perplexity的符合率最高,達69.2%,而ChatGPT 4o最低,僅23.1%。Copilot和Gemini的符合率分別為61.5%和30.8%。所有模型的可讀性都很高,顯示出理解上的困難。研究強調,雖然AI能協助臨床,但醫生在解讀AI回應時的判斷仍然至關重要。 PubMed DOI

這項研究評估了ChatGPT-4.0在頸椎和脊髓損傷管理上與神經外科醫師學會(CNS)指導方針的一致性。共設計36個問題,分為治療性、診斷性和臨床評估類型。結果顯示,61.1%的回應與指導方針一致,其中治療性問題的符合率為70.8%。不過,對於I級證據的建議,ChatGPT表現不佳,僅有20%的符合率。總體來看,雖然ChatGPT在某些方面表現中等,但醫療人員在使用AI建議時仍需謹慎,待更穩健的模型出現。 PubMed DOI

隨著神經外科文獻不斷增加,手動篩選系統評價和指導方針的摘要變得越來越困難。為了解決這個問題,我們評估了兩個大型語言模型(LLMs),Gemini Pro 和 ChatGPT-4o-mini,針對美國神經外科醫學會的 Chiari I 畸形指導方針進行自動篩選。測試結果顯示,Gemini Pro 的敏感性高達 95%,特異性 60%,而 ChatGPT-4o-mini 的敏感性僅 18%,但特異性高達 95%。兩者都能在一小時內完成篩選,顯著縮短時間。這些結果顯示 LLM 在神經外科摘要篩選上的潛力,未來可能幫助醫學領域的指導方針實時更新。 PubMed DOI

這項研究發現,像ChatGPT-4等大型語言模型在協助制定臨床指引時,能幫忙搜尋資料和草擬建議,但還無法獨立完成系統性文獻搜尋和評估偏誤。雖然LLM產出的指引品質稍低於專家,但整體表現相近,有潛力節省時間和資源,未來還需更多研究和合作才能安全應用於臨床。 PubMed DOI