原始文章

這項研究發現,把大型語言模型(LLM)結合檢索增強生成(RAG)技術,能更準確預測病患30天內的術後死亡率和ASA分級,尤其在辨識高風險個案時表現更好。LLaMA-RAG模型的準確度和解釋性都優於傳統方法,顯示這種AI工具有助於臨床決策輔助,未來在醫療現場很有應用潛力。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在預測病人術後風險的應用,分析了2018至2021年間的84,875份術前臨床筆記。結果顯示,LLMs在預測準確度上顯著優於傳統技術,AUROC提升了38.3%,AUPRC增長33.2%。透過自我監督微調,AUROC和AUPRC分別再增長3.2%和1.5%。加入標籤後,AUROC和AUPRC也有進一步提升。這些結果顯示LLMs在術後風險預測中具備重要應用潛力。 PubMed DOI

本研究旨在建立一個框架,利用大型語言模型(LLMs)預測老年患者術後急性腎損傷(AKI)的結果。研究顯示,LLMs克服了傳統機器學習模型在預測疾病時的低泛化能力和可解釋性問題。透過提示工程和知識蒸餾,我們評估了來自中國和南韓的數據,結果顯示LLMs在準確率上優於傳統模型,並提供了可讀的解釋,改善臨床理解。此框架為臨床提供了更可靠的預測工具。 PubMed DOI

這項研究探討了基於GPT-4的檢索增強生成(RAG)模型在術前評估中的有效性。研究測試了十個大型語言模型,生成超過3,200個回應,並與近450個人類答案進行比較。結果顯示,使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%,明顯高於人類的86.6%,且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI

這項研究比較三種AI模型預測急性心肌梗塞病患一年內死亡率的準確度。結果顯示,傳統人工神經網路(SWEDEHEART-AI)表現最好,預測能力優於兩個大型語言模型(Qwen-2和Llama-3)。雖然LLM有潛力,但目前在臨床風險預測上還不如傳統模型,未來還需加強其準確度與校正能力。 PubMed DOI

這項研究用大型語言模型(像RoBERTa和PubMedBERT)分析麻醉門診紀錄,成功辨識出病人術前的虛弱狀態,不論用哪種虛弱定義,模型表現都很準確。結果證明,LLM能有效從日常臨床紀錄中抓出像虛弱這種複雜的健康問題。 PubMed DOI

這篇研究發現,針對不同臨床紀錄類型設計的NLP模型,在預測住院死亡風險上,比傳統方法和34種大型語言模型(LLMs)都更準確。雖然LLMs在其他領域很強,但在這個任務上表現不佳,顯示現有LLMs在臨床應用上還有限制。這個新模型也有助於找出最有用的臨床紀錄。 PubMed DOI

這項研究開發了一套新模型,把臨床資料轉成文字,再結合數值資訊,利用大型語言模型來預測心肺繞道手術前發生急性腎損傷的風險,準確率高達AUC 0.92。研究也找出哪些術前和術中措施有助預防AKI,能幫助醫師更早預測並預防相關風險。 PubMed DOI

大型語言模型(LLMs)在圍手術期醫學有助於整合臨床資料、輔助決策、加強病人衛教及研究,能提升醫療效率與準確性。但在真正應用到臨床前,還需克服資料安全、偏誤和可靠性等問題。 PubMed DOI

五款主流大型語言模型(如ChatGPT-4、Gemini等)在麻醉學考題測試中都拿到高分,彼此表現差不多,顯示未來有望協助醫學教育和臨床決策。不過,還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI

這篇系統性回顧發現,大型語言模型像ChatGPT、GPT-4等,已經開始應用在麻醉和重症醫學,包括加護醫療、醫療教育和圍手術期照護。雖然它們在簡單任務上表現不錯,但遇到複雜情境還是比不上醫師。現階段LLMs還不能完全取代醫師,但在特定、經過監督的任務上有潛力。未來還需要更多研究來驗證其臨床應用。 PubMed DOI