Accuracy of a Proprietary Large Language Model in Labeling Obstetric Incident Reports.
專有大型語言模型在標記產科事件報告中的準確性。 Jt Comm J Qual Patient Saf 2024-09-10

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告，並以人類標註作為金標準。結果顯示，該模型的敏感度達85.7%，特異度為97.9%，使用了79個標籤，而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看，GPT-3.5能提升事件報告系統的數據利用效率，並可能改善病人安全。 PubMed DOI

Extraction of clinical data on major pulmonary diseases from unstructured radiologic reports using a large language model.
使用大型語言模型從非結構化放射學報告中提取主要肺部疾病的臨床數據。 PLoS One 2024-11-25

這項研究探討大型語言模型（LLMs）在從非結構化放射報告中提取臨床數據的效果，專注於七種肺部疾病。研究分析了1,800份報告，並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示，所有模型的準確率都很高，特別是GPT-4的表現最佳，敏感性和特異性均達到優秀水準。這些結果顯示，LLMs，尤其是GPT-4，可能成為醫生進行病歷審查的有效替代方案，提升非結構化放射數據的提取能力。 PubMed DOI

Large language models for accurate disease detection in electronic health records: the examples of crystal arthropathies.
大型語言模型在電子健康紀錄中準確疾病檢測的應用：以結晶性關節病為例。 RMD Open 2025-01-10

這項研究提出了一個框架，利用Meta的Llama-3-8B大型語言模型來檢測法語電子健康紀錄中的痛風。由於“goutte”有多重含義，準確檢測變得困難。研究比較了該模型與傳統的正則表達式方法，使用700段來自瑞士日內瓦大學醫院的EHR資料。結果顯示，該模型在痛風檢測上達到92.7%的正確預測率和95.4%的整體準確率，並在600段鈣焦磷酸鹽沉積病的資料上也表現良好，達94.1%準確率。這顯示LLM在非英語EHR中識別疾病的潛力，有助於改善臨床試驗的病人招募。 PubMed DOI

Large language models improve the identification of emergency department visits for symptomatic kidney stones.
大型語言模型改善了對有症狀腎結石的急診就診識別。 Sci Rep 2025-01-28

這項研究探討大型語言模型（LLMs），特別是GPT-4和GPT-3.5，如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集，透過提示優化和微調來提升模型表現。結果顯示，GPT-4的宏觀F1分數為0.833，表現最佳，而GPT-3.5為0.796。微調改善了GPT-3.5的表現，並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見，但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

Integrating large language models with human expertise for disease detection in electronic health records.
將大型語言模型與人類專業知識整合以進行電子健康紀錄中的疾病檢測。 Comput Biol Med 2025-04-08

這項研究開發了一種利用大型語言模型（LLMs）從電子健康紀錄（EHR）中識別健康狀況的策略，解決了手動標記的繁瑣問題。研究將2015年的心臟登記隊列與阿爾伯塔省的EHR系統結合，分析臨床筆記以檢測急性心肌梗塞、糖尿病和高血壓。結果顯示，LLM方法在敏感度和陰性預測值上優於傳統ICD代碼，且檢測趨勢穩定。這種方法有潛力提升EHR在即時疾病監測中的應用效率。 PubMed DOI

Extracting Pulmonary Embolism Diagnoses From Radiology Impressions Using GPT-4o: Large Language Model Evaluation Study.
使用 GPT-4o 從放射學印象中提取肺栓塞診斷：大型語言模型評估研究。 JMIR Med Inform 2025-04-09

肺栓塞（PE）是一種危險的病症，需迅速診斷以降低死亡率。手動從放射科報告中提取PE診斷非常耗時，因此本研究探討使用GPT-4o模型自動化提取。研究開發了兩種方法：微調的Clinical Longformer和基於GPT-4o的提取器。結果顯示，GPT-4o在敏感性和F1分數上均優於Clinical Longformer，並在實際應用中保持高準確度。這顯示GPT-4o能有效簡化臨床流程，提升PE診斷的效率，改善病患結果。 PubMed DOI

Evaluating Large Language Models in Cardiovascular Antithrombotic Care: Performance, Accuracy, and Implications for Clinical Practice.
心血管抗血栓治療中大型語言模型的評估：表現、準確性及其對臨床實務的影響 Can J Cardiol 2025-04-16

這項研究發現，Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師，正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師，但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒，醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

A comparative analysis of privacy-preserving large language models for automated echocardiography report analysis.
用於自動心臟超音波報告分析之隱私保護大型語言模型的比較分析 J Am Med Inform Assoc 2025-05-07

開源大型語言模型能準確擷取心臟超音波報告的重點資料，像是瓣膜疾病嚴重度和人工瓣膜有無，對建立大規模資料庫和疾病監控很有幫助。經過優化後，像Llama3.0-70B、Qwen2.0這些頂尖模型準確率超過98%，但處理速度較慢。小型模型判斷嚴重度較不準，但辨識人工瓣膜還不錯。主要錯誤來自分心或沒照指示。整體來說，LLMs自動化擷取資料很有潛力，但要兼顧準確和效率。 PubMed DOI

Assessment and Integration of Large Language Models for Automated Electronic Health Record Documentation in Emergency Medical Services.
大型語言模型於緊急醫療服務自動化電子病歷紀錄之評估與整合 J Med Syst 2025-05-17

這項研究用多個大型語言模型（像是GPT-4、Claude 3.5等）來自動化產生EMS對話的電子病歷，結果比單一模型更準確，F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔，但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估，展現未來應用潛力。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

原始文章

站上相關主題文章列表