Accuracy of a Proprietary Large Language Model in Labeling Obstetric Incident Reports.
專有大型語言模型在標記產科事件報告中的準確性。 Jt Comm J Qual Patient Saf 2024-09-10

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告，並以人類標註作為金標準。結果顯示，該模型的敏感度達85.7%，特異度為97.9%，使用了79個標籤，而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看，GPT-3.5能提升事件報告系統的數據利用效率，並可能改善病人安全。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Large language models improve the identification of emergency department visits for symptomatic kidney stones.
大型語言模型改善了對有症狀腎結石的急診就診識別。 Sci Rep 2025-01-28

這項研究探討大型語言模型（LLMs），特別是GPT-4和GPT-3.5，如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集，透過提示優化和微調來提升模型表現。結果顯示，GPT-4的宏觀F1分數為0.833，表現最佳，而GPT-3.5為0.796。微調改善了GPT-3.5的表現，並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見，但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

Enhancing Adverse Event Reporting With Clinical Language Models: Inpatient Falls.
利用臨床語言模型增強不良事件報告：住院病人跌倒。 J Adv Nurs 2025-02-13

這項研究開發了一種計算方法，利用臨床語言模型來檢測醫療環境中的跌倒事件，並改善自我報告系統。研究分析了34,480份來自三家醫院的護理筆記和病人安全報告，並使用BERT和GPT-4模型進行測試。結果顯示，經過微調的BERT模型表現最佳，F1分數達0.98。研究指出，結合臨床語言模型與自我報告能顯著提升跌倒事件的識別率，解決91%的報告不足問題，並減輕護理人員的負擔。 PubMed DOI

Utilizing large language models for detecting hospital-acquired conditions: an empirical study on pulmonary embolism.
利用大型語言模型檢測醫院獲得的病症：針對肺栓塞的實證研究。 J Am Med Inform Assoc 2025-03-19

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰，並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷，發現40例肺栓塞不良事件，流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組，評估了四個開源模型，結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能，並建議未來應加強上下文理解和醫學術語解釋，以提升檢測能力。 PubMed DOI

Large Language Models in Action: Supporting Clinical Evaluation in an Infectious Disease Unit.
大型語言模型的應用：支援感染症單位的臨床評估 Healthcare (Basel) 2025-04-26

這項研究發現，ChatGPT-4o在分析敗血症患者臨床紀錄、評估抗生素和導管管理上表現不錯，但在隔離措施和壓瘡辨識上有失誤。整體來說，LLMs有潛力成為臨床感染控制的輔助工具。 PubMed DOI

A Large Language Model Approach to Identifying Preoperative Frailty Among Older Adults From Clinical Notes.
利用大型語言模型從臨床紀錄中辨識老年人術前虛弱狀態之方法 J Am Geriatr Soc 2025-05-15

這項研究用大型語言模型（像RoBERTa和PubMedBERT）分析麻醉門診紀錄，成功辨識出病人術前的虛弱狀態，不論用哪種虛弱定義，模型表現都很準確。結果證明，LLM能有效從日常臨床紀錄中抓出像虛弱這種複雜的健康問題。 PubMed DOI

Identification of Long-Term Care Facility Residence From Admission Notes Using Large Language Models.
利用大型語言模型從入院紀錄辨識長期照護機構居住狀態 JAMA Netw Open 2025-05-22

一項涵蓋13家醫院的研究發現，GPT-4-Turbo這種大型語言模型在判斷病人是否有近期長照機構接觸史時，準確度跟人工差不多甚至更高，速度快25倍、成本省20倍，還能抓出人工審查的錯誤。這代表AI能有效從醫療紀錄中擷取重要資訊，幫助提升感染控制和醫院作業效率。 PubMed DOI

Using large language models to extract information from pediatric clinical reports.
利用大型語言模型從兒科臨床報告中擷取資訊 PLOS Digit Health 2025-07-23

大部分醫療紀錄都是非結構化，讓資料分析很困難。這項研究測試九種大型語言模型，能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型，表現都很優秀，最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案，有機會取代人工處理。 PubMed DOI

原始文章

站上相關主題文章列表