Large language models for data extraction from unstructured and semi-structured electronic health records: a multiple model performance evaluation.
從非結構化和半結構化電子健康紀錄中提取數據的大型語言模型：多模型性能評估。 BMJ Health Care Inform 2025-01-20

這項研究評估了多種大型語言模型（LLMs）在從電子健康紀錄中提取數據的表現，使用了50份合成醫療筆記。共測試了18個LLM，並與基準模型RoBERTa比較，涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等，準確率超過0.98，明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性，顯示出能有效協助數據提取，減輕醫療人員的負擔。不過，仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

Improving entity recognition using ensembles of deep learning and fine-tuned large language models: A case study on adverse event extraction from VAERS and social media.
使用深度學習和微調大型語言模型的集成來改善實體識別：以從 VAERS 和社交媒體提取不良事件為案例研究。 J Biomed Inform 2025-02-09

這項研究專注於從文本中提取與COVID-19疫苗相關的不良事件資訊，對疫苗安全性監測至關重要。研究比較了大型語言模型（LLMs）和傳統深度學習模型的表現，並探討了模型集成的優勢。使用了VAERS、Twitter和Reddit的數據，識別疫苗、接種和不良事件等實體。多個模型經過微調，最佳集成結果顯示「疫苗」的F1分數為0.878，「接種」為0.930，「不良事件」為0.925，整體微平均F1分數為0.903。研究強調了微調和集成方法在提升性能上的重要性，推進了生物醫學領域的自然語言處理。 PubMed DOI

Large language models generating synthetic clinical datasets: a feasibility and comparative analysis with real-world perioperative data.
大型語言模型生成合成臨床數據集：可行性及與真實世界圍手術數據的比較分析。 Front Artif Intell 2025-02-20

這項研究探討使用OpenAI的GPT-4o生成合成臨床數據，以解決隱私法規和數據稀缺的問題。研究分為兩個階段：第一階段根據13個臨床參數創建了6,166個案例的結構化數據集，數據合理且準確；第二階段則利用真實的圍手術期數據集VitalDB生成數據，結果顯示92.31%的參數與VitalDB相似，且大多數參數間無顯著差異。研究顯示GPT-4o能有效生成反映實際臨床數據的合成數據，未來應進一步提高數據真實性並探索大型語言模型的潛力。 PubMed DOI

Robust privacy amidst innovation with large language models through a critical assessment of the risks.
在大型語言模型創新中的穩健隱私：對風險的批判性評估。 J Am Med Inform Assoc 2025-03-20

這項研究探討如何將電子健康紀錄（EHRs）與自然語言處理（NLP）及大型語言模型（LLMs）結合，以改善醫療數據管理和病人照護。研究使用MIMIC III數據集，採用GPT-3.5、GPT-4等模型生成符合HIPAA要求的合成病人紀錄。結果顯示，基於關鍵字的方法在隱私保護上風險較低，且保持良好性能，建議未來可考慮使用虛擬的PHI來提升實用性與隱私保護。 PubMed DOI

Leveraging large language models to mimic domain expert labeling in unstructured text-based electronic healthcare records in non-english languages.
利用大型語言模型模擬非英語語言中無結構文本電子健康紀錄的領域專家標註。 BMC Med Inform Decis Mak 2025-04-01

大數據與人工智慧在醫療保健中結合，特別是透過電子健康紀錄（EHR）的分析，能顯著提升診斷準確性。然而，處理大量非結構化數據是一大挑戰。本研究探討大型語言模型（LLMs）在分類含排版錯誤的EHR文本的有效性。研究以哈哲特佩大學的兒科急診室數據為例，經微調的GPT-3模型在識別呼吸道感染病例上達到99.88%準確率，顯著優於預訓練模型的78.54%。結果顯示，微調的LLMs能高效分類非結構化EHR數據，提升醫療數據處理的效率與可靠性。 PubMed DOI

Synthetic data distillation enables the extraction of clinical information at scale.
合成數據蒸餾技術實現大規模臨床資訊的萃取 NPJ Digit Med 2025-05-10

這項研究用大型LLM產生合成資料，來訓練較小的開源模型，讓它們在臨床紀錄資訊擷取上表現接近大型模型。8B參數的模型幾乎和70B一樣好，且只針對難題微調也有效。這方法能降低運算需求、保護隱私，適合在本地硬體上應用。 PubMed DOI

Leveraging Large Language Models for Synthetic Data Generation to Enhance Adverse Drug Event Detection in Tweets.
運用大型語言模型生成合成數據以提升推特中不良藥物事件偵測能力 Stud Health Technol Inform 2025-05-17

這篇論文用大型語言模型產生了1.7萬則帶有不良藥物事件標註的合成推文，解決社群媒體上缺乏標註資料的問題。用這些資料預訓練的NER模型，在真實推文上表現更好，經人工標註資料微調後更創新高，證明合成資料能大幅提升ADE偵測效果，且資料集已公開。 PubMed DOI

Large Language Models Struggle in Token-Level Clinical Named Entity Recognition.
大型語言模型在臨床命名實體識別的詞元層級表現不佳 AMIA Annu Symp Proc 2025-05-26

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現，雖然用了多種技術，LLMs 在這類任務上還是有不少困難，並針對醫療應用提出改進建議。 PubMed

Synthetic4Health: generating annotated synthetic clinical letters.
Synthetic4Health：產生帶有註解的合成臨床信件 Front Digit Health 2025-06-16

這篇研究用 Bio_ClinicalBERT 等預訓練語言模型，提出產生去識別化合成臨床信件的方法。結果顯示，僅有編碼器的模型表現較佳，只要保留臨床實體，一般模型也能媲美專用模型。遮罩停用詞有助提升品質，遮罩名詞或動詞則會降低品質。BERTScore 是最佳評估指標。偶爾的幻覺對臨床應用影響不大。程式碼和模型已開源。 PubMed DOI

Zero- and few-shot Named Entity Recognition and Text Expansion in medication prescriptions using large language models.
使用大型語言模型於藥物處方中的零樣本與少樣本命名實體識別及文本擴充 Artif Intell Med 2025-07-02

這項研究用 ChatGPT3.5 自動從電子病歷的出院摘要中擷取藥物資訊，解決了多語言和格式不一的問題。研究發現，few-shot 提示比 zero-shot 更準確，錯誤也較少。ChatGPT3.5 在命名實體辨識和文字擴充的 F1 分數分別達 0.94 和 0.87，更新版模型表現更好。結果證明大型語言模型能有效結構化藥物資料，提升資訊可用性。 PubMed DOI

原始文章

站上相關主題文章列表