Accuracy of a Proprietary Large Language Model in Labeling Obstetric Incident Reports.
專有大型語言模型在標記產科事件報告中的準確性。 Jt Comm J Qual Patient Saf 2024-09-10

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告，並以人類標註作為金標準。結果顯示，該模型的敏感度達85.7%，特異度為97.9%，使用了79個標籤，而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看，GPT-3.5能提升事件報告系統的數據利用效率，並可能改善病人安全。 PubMed DOI

Large language models to identify advance care planning in patients with advanced cancer.
大型語言模型在晚期癌症患者中識別預立醫療計劃。 J Pain Symptom Manage 2024-11-25

這項研究評估大型語言模型（LLMs）在識別晚期癌症患者的預立醫療計畫（ACP）文件的有效性。研究在達納法伯癌症中心進行，將LLM的表現與傳統手動查閱和自然語言處理（NLP）方法比較。使用GPT-4，研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好，整體準確率介於0.81到0.91之間，特別在複雜主題上優於NLP。雖然精確度略低，但LLM的假陽性對臨床管理仍具相關性，建議進一步研究以增強此方法。 PubMed DOI

A Large Language Model-Based Approach for Coding Information from Free-Text Reported in Fall Risk Surveillance Systems: New Opportunities for In-Hospital Risk Management.
基於大型語言模型的自由文本報告編碼信息的方法：住院風險管理的新機會。 J Clin Med 2025-03-17

跌倒是醫院常見的不良事件，對患者及醫療系統影響深遠。本研究旨在利用大型語言模型（LLMs）自動編碼住院跌倒記錄，提取跌倒地點及受傷情況。研究分析了187條跌倒事件，使用GPT-4-turbo模型進行數據分類，結果顯示模型在地點和受傷檢測上表現優異，準確率均超過0.913及0.953。結論指出，GPT模型能有效從未優化文本中提取信息，顯示其在臨床風險管理中的潛力。 PubMed DOI

Utilizing large language models for detecting hospital-acquired conditions: an empirical study on pulmonary embolism.
利用大型語言模型檢測醫院獲得的病症：針對肺栓塞的實證研究。 J Am Med Inform Assoc 2025-03-19

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰，並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷，發現40例肺栓塞不良事件，流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組，評估了四個開源模型，結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能，並建議未來應加強上下文理解和醫學術語解釋，以提升檢測能力。 PubMed DOI

Critical care studies using large language models based on electronic healthcare records: A technical note.
基於電子健康紀錄應用大型語言模型於重症醫學研究之技術說明 J Intensive Med 2025-04-17

這份技術說明介紹大型語言模型（如 GPT-4、Qwen-Chat）如何分析電子病歷，協助快速評估病患、預測敗血症及自動產生加護病房出院摘要。內容也說明如何用 DashScope API 把 LLMs 整合進臨床流程，並提供實用指引，幫助醫師和研究人員提升照護品質與推動個人化醫療。 PubMed DOI

Large Language Models in Action: Supporting Clinical Evaluation in an Infectious Disease Unit.
大型語言模型的應用：支援感染症單位的臨床評估 Healthcare (Basel) 2025-04-26

這項研究發現，ChatGPT-4o在分析敗血症患者臨床紀錄、評估抗生素和導管管理上表現不錯，但在隔離措施和壓瘡辨識上有失誤。整體來說，LLMs有潛力成為臨床感染控制的輔助工具。 PubMed DOI

Physician- and Large Language Model-Generated Hospital Discharge Summaries.
醫師與大型語言模型生成的出院摘要 JAMA Intern Med 2025-05-05

研究發現，大型語言模型（LLM）生成的出院摘要，品質和醫師寫的差不多，受歡迎程度也相近。LLM寫的內容比較精簡、結構清楚，但資訊沒那麼完整，錯誤率也稍高。不過這些錯誤通常不會造成傷害。只要有醫師審核，LLM生成的摘要很有機會成為醫院的好幫手。 PubMed DOI

Zero-shot large language model application for surgical site infection auditing.
零樣本大型語言模型於手術部位感染稽核的應用 Infect Dis Health 2025-05-22

這項研究用 Llama 3.0 大型語言模型分析兩家醫院的病歷，來偵測手術部位感染。28位病人中，LLM準確率達93%，敏感度100%，特異度86%。模型多半能和醫師一樣早，甚至更早發現感染。結果顯示 LLM 有潛力協助醫療篩檢，但臨床應用前還需更多研究驗證。 PubMed DOI

Large language model discharge summary preparation using real-world electronic medical record data shows promise.
使用真實世界電子病歷資料進行大型語言模型出院摘要撰寫展現潛力 Intern Med J 2025-05-28

**重點摘要：** 這項研究測試了兩個大型語言模型（LLMs），用來從真實的臨床紀錄自動產生出院摘要，並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多，顯示LLMs有潛力協助醫師準備出院摘要，進而減輕臨床醫師的行政工作負擔。 PubMed DOI

Verifiable Summarization of Electronic Health Records Using Large Language Models to Support Chart Review.
使用大型語言模型驗證性摘要電子健康紀錄以支援病歷審查 medRxiv 2025-06-12

這項研究發現，用大型語言模型自動產生心臟衰竭住院摘要，能幫助部分醫師更快回答問題，且準確率沒變。大多數醫師認為這樣能省時間，也願意使用，但摘要格式要配合個人需求。整體來說，LLM有助提升醫師效率，但摘要內容還需客製化。 PubMed DOI

原始文章

站上相關主題文章列表