Large language models for data extraction from unstructured and semi-structured electronic health records: a multiple model performance evaluation.
從非結構化和半結構化電子健康紀錄中提取數據的大型語言模型：多模型性能評估。 BMJ Health Care Inform 2025-01-20

這項研究評估了多種大型語言模型（LLMs）在從電子健康紀錄中提取數據的表現，使用了50份合成醫療筆記。共測試了18個LLM，並與基準模型RoBERTa比較，涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等，準確率超過0.98，明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性，顯示出能有效協助數據提取，減輕醫療人員的負擔。不過，仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Scalable information extraction from free text electronic health records using large language models.
使用大型語言模型從自由文本電子健康紀錄中進行可擴展的信息提取。 BMC Med Res Methodol 2025-01-28

這項研究探討開源大型語言模型（LLMs）在從電子健康紀錄（EHRs）中提取社會健康決定因素（SDoH）數據的效果。研究隨機選取200名患者，並由兩位審查者手動標記九個SDoH方面，達成93%的高一致性。結果顯示，LLMs的表現明顯優於基準模型，特別是在識別明確提及的SDoH方面。最佳模型openchat_3.5在所有SDoH方面的準確率最高。研究強調進一步精煉和專業訓練的潛力，以提升LLMs在臨床研究中的應用，最終改善醫療結果。 PubMed DOI

Leveraging Medical Knowledge Graphs Into Large Language Models for Diagnosis Prediction: Design and Application Study.
將醫學知識圖譜融入大型語言模型進行診斷預測：設計與應用研究。 JMIR AI 2025-02-24

這項研究介紹了DR.KNOWS，一個結合知識圖譜（KGs）與大型語言模型（LLMs）的新模型，旨在提升電子健康紀錄（EHRs）的診斷推理。透過KGs的結構化知識，DR.KNOWS能更精確地檢索病人相關的醫療資訊，改善診斷預測。實驗結果顯示，DR.KNOWS在準確性上超越了多個基準模型，並獲得了人類評估者的肯定。研究也提到KG數據可能存在的偏見，並建議未來需針對這些問題進行改善。總體而言，DR.KNOWS在臨床決策支持上具有重要意義。 PubMed DOI

Consistent Performance of GPT-4o in Rare Disease Diagnosis Across Nine Languages and 4967 Cases.
GPT-4o 在九種語言和 4967 例罕見疾病診斷中的一致表現。 medRxiv 2025-03-10

大型語言模型（LLMs）如GPT-4o在醫療應用，特別是鑑別診斷方面展現潛力。研究人員創建了4,967個臨床案例，涵蓋378種遺傳疾病，並翻譯HPO術語，生成多語言提示。結果顯示，GPT-4o在英語中正確識別排名第一的診斷達19.8%，而在八種非英語語言中，正確率介於16.9%到20.5%之間。這顯示該模型在非英語臨床環境中的應用潛力，並得到多方支持，推進LLMs在醫療領域的合作努力。 PubMed DOI

Integrating large language models with human expertise for disease detection in electronic health records.
將大型語言模型與人類專業知識整合以進行電子健康紀錄中的疾病檢測。 Comput Biol Med 2025-04-08

這項研究開發了一種利用大型語言模型（LLMs）從電子健康紀錄（EHR）中識別健康狀況的策略，解決了手動標記的繁瑣問題。研究將2015年的心臟登記隊列與阿爾伯塔省的EHR系統結合，分析臨床筆記以檢測急性心肌梗塞、糖尿病和高血壓。結果顯示，LLM方法在敏感度和陰性預測值上優於傳統ICD代碼，且檢測趨勢穩定。這種方法有潛力提升EHR在即時疾病監測中的應用效率。 PubMed DOI

Using Large Language Models for Efficient Cancer Registry Coding in the Real Hospital Setting: A Feasibility Study.
在真實醫院環境中運用大型語言模型於癌症登記編碼之可行性研究 Pac Symp Biocomput 2025-04-29

這項研究發現，只要善用提示工程技巧，即使沒特別微調，公開的大型語言模型也能協助癌症登記編碼。結合RAG系統和思路鏈推理後，肺癌個案的編碼準確率大幅提升，顯示LLMs有助於提升登記人員的效率和精確度。 PubMed DOI

Social determinants of health extraction from clinical notes across institutions using large language models.
使用大型語言模型跨機構從臨床紀錄中擷取健康社會決定因素 NPJ Digit Med 2025-05-16

這篇研究針對電子病歷中難以提取健康社會決定因素（SDoH）問題，從四家醫院建立標註資料集，涵蓋21種SDoH，並用多種模型（包含大型語言模型）進行偵測。經過指令微調的LLMs表現最佳，F1值都很高，但模型跨醫院應用仍有困難。訓練好的模型已公開在GitHub。 PubMed DOI

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Transfer Learning with Clinical Concept Embeddings from Large Language.
來自大型語言模型的臨床概念嵌入之遷移學習 AMIA Jt Summits Transl Sci Proc 2025-06-12

這項研究發現，像 Med-BERT 這種專為醫療設計的大型語言模型，比通用型模型更能處理不同醫院間的資料差異，提升知識轉移效果。通用模型如 OpenAI 需額外微調。未來建議持續研究如何在任務難度、資料量和微調之間取得最佳平衡。 PubMed

原始文章

站上相關主題文章列表