The foundational capabilities of large language models in predicting postoperative risks using clinical notes.
大型語言模型在利用臨床筆記預測術後風險的基礎能力。 NPJ Digit Med 2025-02-11

這項研究探討大型語言模型（LLMs）在預測病人術後風險的應用，分析了2018至2021年間的84,875份術前臨床筆記。結果顯示，LLMs在預測準確度上顯著優於傳統技術，AUROC提升了38.3%，AUPRC增長33.2%。透過自我監督微調，AUROC和AUPRC分別再增長3.2%和1.5%。加入標籤後，AUROC和AUPRC也有進一步提升。這些結果顯示LLMs在術後風險預測中具備重要應用潛力。 PubMed DOI

Critical care studies using large language models based on electronic healthcare records: A technical note.
基於電子健康紀錄應用大型語言模型於重症醫學研究之技術說明 J Intensive Med 2025-04-17

這份技術說明介紹大型語言模型（如 GPT-4、Qwen-Chat）如何分析電子病歷，協助快速評估病患、預測敗血症及自動產生加護病房出院摘要。內容也說明如何用 DashScope API 把 LLMs 整合進臨床流程，並提供實用指引，幫助醫師和研究人員提升照護品質與推動個人化醫療。 PubMed DOI

A Prospective Comparison of Large Language Models for Early Prediction of Sepsis.
大型語言模型於敗血症早期預測之前瞻性比較 Pac Symp Biocomput 2025-04-29

這項研究發現，Llama-3 8B 雖然模型較小，但在從病歷擷取臨床徵象、預測早期敗血症的表現，幾乎和較大的 Mixtral 8x7B 一樣好。兩者都整合進 COMPOSER-LLM 系統，準確率相近。這代表運算效率高的小模型，也很適合資源有限的醫療現場使用。 PubMed DOI

Large Language Models and Artificial Neural Networks for Assessing 1-Year Mortality in Patients With Myocardial Infarction: Analysis From the Medical Information Mart for Intensive Care IV (MIMIC-IV) Database.
用於評估心肌梗塞患者一年內死亡率之大型語言模型與人工神經網路：來自加護病房醫療資訊資料庫 MIMIC-IV 的分析 J Med Internet Res 2025-05-12

這項研究比較三種AI模型預測急性心肌梗塞病患一年內死亡率的準確度。結果顯示，傳統人工神經網路（SWEDEHEART-AI）表現最好，預測能力優於兩個大型語言模型（Qwen-2和Llama-3）。雖然LLM有潛力，但目前在臨床風險預測上還不如傳統模型，未來還需加強其準確度與校正能力。 PubMed DOI

LLMs-based Few-Shot Disease Predictions using EHR: A Novel Approach Combining Predictive Agent Reasoning and Critical Agent Instruction.
基於LLMs的少樣本疾病預測：結合預測代理推理與關鍵代理指導的電子健康紀錄新方法 AMIA Annu Symp Proc 2025-05-26

這項研究利用大型語言模型（LLMs）把電子健康紀錄（EHR）結構化資料轉成自然語言，並應用在疾病預測。LLMs分別扮演「預測者」和「評論者」兩種角色，負責預測結果和給予改進建議。結果顯示，在樣本數少的情況下，這種方法的預測表現不輸傳統監督式學習，對醫療應用很有發展潛力。 PubMed

Clinical Information Extraction with Large Language Models: A Case Study on Organ Procurement.
利用大型語言模型進行臨床資訊擷取：以器官摘取為案例研究 AMIA Annu Symp Proc 2025-05-26

這篇文章說明大型語言模型（LLMs）能準確從臨床文本抓取數值資料，像是檢驗數據和生命徵象。作者提出新提示策略和方法，能有效降低錯誤，並在標註病歷上驗證成果，也證明這方法適用於大量器官捐贈者資料分析，有助提升器官採集資料的研究可用性。 PubMed

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Large language model discharge summary preparation using real-world electronic medical record data shows promise.
使用真實世界電子病歷資料進行大型語言模型出院摘要撰寫展現潛力 Intern Med J 2025-05-28

**重點摘要：** 這項研究測試了兩個大型語言模型（LLMs），用來從真實的臨床紀錄自動產生出院摘要，並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多，顯示LLMs有潛力協助醫師準備出院摘要，進而減輕臨床醫師的行政工作負擔。 PubMed DOI

Predicting 30-Day Postoperative Mortality and American Society of Anesthesiologists Physical Status Using Retrieval-Augmented Large Language Models: Development and Validation Study.
利用檢索增強大型語言模型預測30天術後死亡率與美國麻醉醫師學會身體狀態：開發與驗證研究 J Med Internet Res 2025-06-03

這項研究發現，把大型語言模型（LLM）結合檢索增強生成（RAG）技術，能更準確預測病患30天內的術後死亡率和ASA分級，尤其在辨識高風險個案時表現更好。LLaMA-RAG模型的準確度和解釋性都優於傳統方法，顯示這種AI工具有助於臨床決策輔助，未來在醫療現場很有應用潛力。 PubMed DOI

Enhancing Pulmonary Disease Prediction Using Large Language Models With Feature Summarization and Hybrid Retrieval-Augmented Generation: Multicenter Methodological Study Based on Radiology Report.
利用特徵摘要與混合檢索增強生成（Hybrid Retrieval-Augmented Generation），結合大型語言模型提升肺部疾病預測：基於放射報告的多中心方法學研究 J Med Internet Res 2025-06-11

這項研究提出結合特徵摘要、思路鏈推理和混合型RAG架構的新提示工程方法，能提升大型語言模型判讀胸部CT報告、診斷肺部疾病的準確度。用2,965份報告測試，結果比傳統深度學習和其他提示法更準，外部驗證也表現優異。此方法不僅提升可解釋性，也有助臨床更精確診斷。 PubMed DOI

原始文章

站上相關主題文章列表