The foundational capabilities of large language models in predicting postoperative risks using clinical notes.
大型語言模型在利用臨床筆記預測術後風險的基礎能力。 NPJ Digit Med 2025-02-11

這項研究探討大型語言模型（LLMs）在預測病人術後風險的應用，分析了2018至2021年間的84,875份術前臨床筆記。結果顯示，LLMs在預測準確度上顯著優於傳統技術，AUROC提升了38.3%，AUPRC增長33.2%。透過自我監督微調，AUROC和AUPRC分別再增長3.2%和1.5%。加入標籤後，AUROC和AUPRC也有進一步提升。這些結果顯示LLMs在術後風險預測中具備重要應用潛力。 PubMed DOI

Leveraging Large Language Models for Predicting Postoperative Acute Kidney Injury in Elderly Patients.
利用大型語言模型預測老年患者術後急性腎損傷。 BME Front 2025-03-12

本研究旨在建立一個框架，利用大型語言模型（LLMs）預測老年患者術後急性腎損傷（AKI）的結果。研究顯示，LLMs克服了傳統機器學習模型在預測疾病時的低泛化能力和可解釋性問題。透過提示工程和知識蒸餾，我們評估了來自中國和南韓的數據，結果顯示LLMs在準確率上優於傳統模型，並提供了可讀的解釋，改善臨床理解。此框架為臨床提供了更可靠的預測工具。 PubMed DOI

Retrieval augmented generation for 10 large language models and its generalizability in assessing medical fitness.
10 種大型語言模型的檢索增強生成及其在評估醫療適應性中的普遍性。 NPJ Digit Med 2025-04-04

這項研究探討了基於GPT-4的檢索增強生成（RAG）模型在術前評估中的有效性。研究測試了十個大型語言模型，生成超過3,200個回應，並與近450個人類答案進行比較。結果顯示，使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%，明顯高於人類的86.6%，且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI

Large Language Models and Artificial Neural Networks for Assessing 1-Year Mortality in Patients With Myocardial Infarction: Analysis From the Medical Information Mart for Intensive Care IV (MIMIC-IV) Database.
用於評估心肌梗塞患者一年內死亡率之大型語言模型與人工神經網路：來自加護病房醫療資訊資料庫 MIMIC-IV 的分析 J Med Internet Res 2025-05-12

這項研究比較三種AI模型預測急性心肌梗塞病患一年內死亡率的準確度。結果顯示，傳統人工神經網路（SWEDEHEART-AI）表現最好，預測能力優於兩個大型語言模型（Qwen-2和Llama-3）。雖然LLM有潛力，但目前在臨床風險預測上還不如傳統模型，未來還需加強其準確度與校正能力。 PubMed DOI

A Large Language Model Approach to Identifying Preoperative Frailty Among Older Adults From Clinical Notes.
利用大型語言模型從臨床紀錄中辨識老年人術前虛弱狀態之方法 J Am Geriatr Soc 2025-05-15

這項研究用大型語言模型（像RoBERTa和PubMedBERT）分析麻醉門診紀錄，成功辨識出病人術前的虛弱狀態，不論用哪種虛弱定義，模型表現都很準確。結果證明，LLM能有效從日常臨床紀錄中抓出像虛弱這種複雜的健康問題。 PubMed DOI

Comparing Text-Based Clinical Risk Prediction in Critical Care: A Note-Specific Hierarchical Network and Large Language Models.
重症醫療中文本式臨床風險預測之比較：特定病歷紀錄分層網路與大型語言模型 IEEE J Biomed Health Inform 2025-05-27

這篇研究發現，針對不同臨床紀錄類型設計的NLP模型，在預測住院死亡風險上，比傳統方法和34種大型語言模型（LLMs）都更準確。雖然LLMs在其他領域很強，但在這個任務上表現不佳，顯示現有LLMs在臨床應用上還有限制。這個新模型也有助於找出最有用的臨床紀錄。 PubMed DOI

Leveraging large language models for preoperative prevention of cardiopulmonary bypass-associated acute kidney injury.
運用大型語言模型於心肺繞道相關急性腎損傷的術前預防 Ren Fail 2025-05-30

這項研究開發了一套新模型，把臨床資料轉成文字，再結合數值資訊，利用大型語言模型來預測心肺繞道手術前發生急性腎損傷的風險，準確率高達AUC 0.92。研究也找出哪些術前和術中措施有助預防AKI，能幫助醫師更早預測並預防相關風險。 PubMed DOI

Large language models in perioperative medicine-applications and future prospects: a narrative review.
圍手術期醫學中大型語言模型的應用與未來展望：敘述性回顧 Can J Anaesth 2025-06-09

大型語言模型（LLMs）在圍手術期醫學有助於整合臨床資料、輔助決策、加強病人衛教及研究，能提升醫療效率與準確性。但在真正應用到臨床前，還需克服資料安全、偏誤和可靠性等問題。 PubMed DOI

Evaluating Large Language Models on American Board of Anesthesiology-style Anesthesiology Questions: Accuracy, Domain Consistency, and Clinical Implications.
以美國麻醉科醫學會（American Board of Anesthesiology）風格麻醉學試題評估大型語言模型：準確性、領域一致性與臨床意涵 J Cardiothorac Vasc Anesth 2025-06-15

五款主流大型語言模型（如ChatGPT-4、Gemini等）在麻醉學考題測試中都拿到高分，彼此表現差不多，顯示未來有望協助醫學教育和臨床決策。不過，還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI

The applications of ChatGPT and other large language models in anesthesiology and critical care: a systematic review.
ChatGPT 及其他大型語言模型在麻醉學與重症醫學中的應用：系統性回顧 Can J Anaesth 2025-06-16

這篇系統性回顧發現，大型語言模型像ChatGPT、GPT-4等，已經開始應用在麻醉和重症醫學，包括加護醫療、醫療教育和圍手術期照護。雖然它們在簡單任務上表現不錯，但遇到複雜情境還是比不上醫師。現階段LLMs還不能完全取代醫師，但在特定、經過監督的任務上有潛力。未來還需要更多研究來驗證其臨床應用。 PubMed DOI

原始文章

站上相關主題文章列表