Large language models for data extraction from unstructured and semi-structured electronic health records: a multiple model performance evaluation.
從非結構化和半結構化電子健康紀錄中提取數據的大型語言模型：多模型性能評估。 BMJ Health Care Inform 2025-01-20

這項研究評估了多種大型語言模型（LLMs）在從電子健康紀錄中提取數據的表現，使用了50份合成醫療筆記。共測試了18個LLM，並與基準模型RoBERTa比較，涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等，準確率超過0.98，明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性，顯示出能有效協助數據提取，減輕醫療人員的負擔。不過，仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

Empowering large language models for automated clinical assessment with generation-augmented retrieval and hierarchical chain-of-thought.
利用生成增強檢索和分層思維鏈來提升大型語言模型的自動臨床評估能力。 Artif Intell Med 2025-02-20

這項研究提出了一種名為「GAPrompt」的新方法，旨在提升大型語言模型（LLMs）在自動化臨床評估中的應用，特別是針對電子健康紀錄（EHRs）中的中風評估。GAPrompt包含五個關鍵組件，包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示，GAPrompt能有效分析EHRs並提供定量評估，解決傳統中風評估的勞動密集問題，顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

Leveraging large language models for knowledge-free weak supervision in clinical natural language processing.
利用大型語言模型在臨床自然語言處理中進行無知識的弱監督學習。 Sci Rep 2025-03-11

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據，但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型，但效果仍不如傳統監督方法。我們提出一種新方法，結合LLMs的微調與弱監督，僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據，並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試，結果顯示僅用10個金標準筆記，模型F1分數超越PubMedBERT，提升幅度達4.7-47.9%。使用50個金標準筆記時，性能可與完全微調系統相媲美。 PubMed DOI

LLM-IE: a python package for biomedical generative information extraction with large language models.
LLM-IE：一個用於生物醫學生成信息提取的大型語言模型的 Python 套件。 JAMIA Open 2025-03-13

最近，大型語言模型（LLMs）在生物醫學資訊擷取（IE）方面的應用逐漸增多，但仍面臨提示工程和演算法開發的挑戰，且缺乏專門的軟體解決方案。為此，我們開發了 **LLM-IE**，這是一個用於建立資訊擷取管道的 Python 套件，能協助進行命名實體識別、實體屬性擷取及關係擷取。我們在 i2b2 臨床數據集上測試，發現其在實體擷取上達到超過 70% 的 F1 分數，實體屬性擷取約 60%。**LLM-IE** 還提供互動式 LLM 代理、先進的提示演算法及可視化工具，未來將持續增強與提升效率。 PubMed DOI

Prompt Framework for Extracting Scale-Related Knowledge Entities from Chinese Medical Literature: Development and Evaluation Study.
從中文醫學文獻中提取與規模相關的知識實體的提示框架：開發與評估研究。 J Med Internet Res 2025-03-18

這項研究開發了MedScaleNER框架，旨在透過基於測量的護理改善病人結果，特別是在非結構化的中文醫學文獻中識別醫學量表相關實體。由於標註數據有限，命名實體識別（NER）面臨挑戰。該框架結合大型語言模型（LLMs）和提示策略，成功識別量表名稱及測量項目。初步實驗顯示，GLM-4-0520與MedScaleNER結合後，達到59.64%的宏觀F1分數，顯示出顯著的改進，並為未來的研究提供了寶貴的見解。 PubMed DOI

Prompting large language models to extract chemical‒disease relation precisely and comprehensively at the document level: an evaluation study.
在文件層面精確且全面地引導大型語言模型提取化學‒疾病關係：一項評估研究。 PLoS One 2025-04-08

這項研究探討大型語言模型（LLMs），如GPT-3.5、GPT-4.0和Claude-opus，在化學與疾病關係提取中的挑戰，特別是標註數據不足的情況。研究發現，這些模型在精確提取上達87%的F1分數，但全面提取僅73%。模型在提示工程上的改進有限，且對正向關係的識別較佳。提取錯誤多因模型誤解生物醫學文本的隱含意義。最後，研究提供了增強提取任務的工作流程，並強調優化訓練數據的重要性。 PubMed DOI

Cross-Institutional Evaluation of Large Language Models for Radiology Diagnosis Extraction: A Prompt-Engineering Perspective.
跨機構評估大型語言模型於放射診斷萃取之表現：以提示工程觀點分析 J Imaging Inform Med 2025-05-09

這項研究用標準化、針對人類優化的提示語，讓大型語言模型標註六家醫院的放射科報告，結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語，LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

Extraction of Normalized Symptom Mentions From Clinical Narratives Using Large Language Models.
使用大型語言模型從臨床敘述中擷取標準化症狀提及 AMIA Annu Symp Proc 2025-05-26

**重點整理：** 這項研究顯示，只要搭配詳細的提示、範例和逐步推理，大型語言模型（LLMs）就能夠準確地從臨床紀錄中擷取出常見的病人症狀。跟傳統的機器學習方法相比，LLMs在從自由文本中辨識和標準化症狀資訊方面表現得更好，這有助於提升醫療流程，也能支持更多相關研究。 PubMed

Clinical Information Extraction with Large Language Models: A Case Study on Organ Procurement.
利用大型語言模型進行臨床資訊擷取：以器官摘取為案例研究 AMIA Annu Symp Proc 2025-05-26

這篇文章說明大型語言模型（LLMs）能準確從臨床文本抓取數值資料，像是檢驗數據和生命徵象。作者提出新提示策略和方法，能有效降低錯誤，並在標註病歷上驗證成果，也證明這方法適用於大量器官捐贈者資料分析，有助提升器官採集資料的研究可用性。 PubMed

Evaluating large language models for information extraction from gastroscopy and colonoscopy reports through multi-strategy prompting.
透過多策略提示評估大型語言模型於胃鏡與大腸鏡報告資訊擷取的表現 J Biomed Inform 2025-06-12

這項研究評估多種大型語言模型，利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示，大型且專業化的模型在基本資訊擷取表現最好，但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助，顯示LLMs自動化醫療文本分析有潛力，但還需改進。 PubMed DOI

原始文章

站上相關主題文章列表