Optimizing Data Extraction: Harnessing RAG and LLMs for German Medical Documents.
優化數據提取：利用 RAG 和 LLMs 處理德國醫療文件。 Stud Health Technol Inform 2024-08-23

這項研究針對將非結構化醫療文本轉換為結構化格式的挑戰，提出了一個自動化的本地流程，確保使用開源大型語言模型（LLMs）時能維護數據隱私。研究針對包含敏感健康資訊的德語醫療文件進行測試，結果顯示在800份非結構化醫療報告中，數據提取的準確率高達90%，表現優於醫生和醫學生的手動提取。這顯示該流程能有效提升數據可用性，同時保障隱私。 PubMed DOI

Viability of Open Large Language Models for Clinical Documentation in German Health Care: Real-World Model Evaluation Study.
開放大型語言模型在德國醫療保健臨床文檔中的可行性：實際模型評估研究。 JMIR Med Inform 2024-08-28

這項研究探討了如何在有限計算資源下，利用非專有的大型語言模型（LLMs）協助醫療專業人員撰寫德語醫療文本。研究團隊訓練了四個擁有70億參數的模型，並與商業模型Claude-v2進行比較。結果顯示，BLOOM-CLP-German模型在自動評估中表現最佳，且在專家評估中，有93.1%的生成報告被認為可用，僅需少量修改。這顯示即使資源有限，仍能生成適合臨床的醫療文檔，強調選擇非英語模型時需考慮目標語言的重要性。 PubMed DOI

Privacy-preserving large language models for structured medical information retrieval.
隱私保護的大型語言模型在結構化醫療信息檢索中的應用。 NPJ Digit Med 2024-09-20

這項研究介紹了一個開源流程，利用本地的大型語言模型（LLM）"Llama 2" 從臨床文本中提取定量數據，專注於識別失代償性肝硬化的特徵。研究在MIMIC IV數據集中測試500名患者的病歷，成功識別五個關鍵臨床特徵，敏感度達100%，特異度96%。此外，對其他病症的檢測也相當高，顯示出本地部署的LLM在提取臨床信息方面的有效性，且硬體需求低。 PubMed DOI

Large language models for data extraction from unstructured and semi-structured electronic health records: a multiple model performance evaluation.
從非結構化和半結構化電子健康紀錄中提取數據的大型語言模型：多模型性能評估。 BMJ Health Care Inform 2025-01-20

這項研究評估了多種大型語言模型（LLMs）在從電子健康紀錄中提取數據的表現，使用了50份合成醫療筆記。共測試了18個LLM，並與基準模型RoBERTa比較，涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等，準確率超過0.98，明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性，顯示出能有效協助數據提取，減輕醫療人員的負擔。不過，仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

Using Synthetic Health Care Data to Leverage Large Language Models for Named Entity Recognition: Development and Validation Study.
使用合成健康照護數據來利用大型語言模型進行命名實體識別：開發與驗證研究。 J Med Internet Res 2025-03-18

這項研究針對低資源語言，特別是愛沙尼亞語，開發命名實體識別（NER）模型，目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據，作者提出三步驟方法：首先，利用本地訓練的GPT-2生成合成醫療數據；接著，使用GPT-3.5-Turbo和GPT-4對這些數據進行標註；最後，微調NER模型並測試真實醫療文本。研究結果顯示，藥物提取的F<sub>1</sub>分數為0.69，程序提取為0.38，顯示出在藥物識別上的有效性，並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI

Automated generation of discharge summaries: leveraging large language models with clinical data.
自動生成出院摘要：結合臨床資料與大型語言模型 Sci Rep 2025-05-12

這項研究用開源大型語言模型（像LLaMA3）自動產生德文出院摘要，並請醫師評估品質。結果顯示，AI生成的摘要資訊算完整，但常漏掉重要細節或出現錯誤，尤其在複雜病例時更明顯。研究也發現資料集太小、資料不全和模型德文醫學詞彙不足是主要挑戰，建議未來要用更多資料和微調模型，才能提升表現。 PubMed DOI

The DRAGON benchmark for clinical NLP.
臨床自然語言處理的 DRAGON 基準 NPJ Digit Med 2025-05-16

這項研究推出DRAGON challenge，提供28項任務和近2.9萬份標註荷蘭醫療報告，協助自動化標註臨床資料，促進AI診斷工具訓練。結果顯示，針對臨床資料預訓練的LLM表現較佳，但部分任務仍有進步空間。所有資料和程式碼都已公開，歡迎大家使用。 PubMed DOI

Large Language Models in Medicine: Clinical Applications, Technical Challenges, and Ethical Considerations.
醫學中的大型語言模型：臨床應用、技術挑戰與倫理考量 Healthc Inform Res 2025-05-19

大型語言模型在醫療文件撰寫和決策輔助上很有潛力，但因準確性、驗證、偏見和隱私等問題，現階段還不適合完全自動化臨床應用。未來要安全有效導入，需加強研究、訂定明確規範，並維持人工監督。 PubMed DOI

Synthetic4Health: generating annotated synthetic clinical letters.
Synthetic4Health：產生帶有註解的合成臨床信件 Front Digit Health 2025-06-16

這篇研究用 Bio_ClinicalBERT 等預訓練語言模型，提出產生去識別化合成臨床信件的方法。結果顯示，僅有編碼器的模型表現較佳，只要保留臨床實體，一般模型也能媲美專用模型。遮罩停用詞有助提升品質，遮罩名詞或動詞則會降低品質。BERTScore 是最佳評估指標。偶爾的幻覺對臨床應用影響不大。程式碼和模型已開源。 PubMed DOI

Harnessing Moderate-Sized Language Models for Reliable Patient Data Deidentification in Emergency Department Records: Algorithm Development, Validation, and Implementation Study.
運用中等規模語言模型於急診部門紀錄中進行可靠的病患資料去識別化：演算法開發、驗證與實作研究 JMIR AI 2025-07-03

這項研究比較了幾款中型開源語言模型在去除法文臨床紀錄個資的表現，重點是能在一般電腦上運作。結果發現，Mistral 7B 微調後表現最好，準確率高達0.97，且幾乎不會改動原文內容。這方法能有效保護病患隱私，讓臨床資料更安全地用於醫療研究和系統優化。 PubMed DOI

原始文章

站上相關主題文章列表