Large language models for data extraction from unstructured and semi-structured electronic health records: a multiple model performance evaluation.
從非結構化和半結構化電子健康紀錄中提取數據的大型語言模型：多模型性能評估。 BMJ Health Care Inform 2025-01-20

這項研究評估了多種大型語言模型（LLMs）在從電子健康紀錄中提取數據的表現，使用了50份合成醫療筆記。共測試了18個LLM，並與基準模型RoBERTa比較，涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等，準確率超過0.98，明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性，顯示出能有效協助數據提取，減輕醫療人員的負擔。不過，仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

Empowering large language models for automated clinical assessment with generation-augmented retrieval and hierarchical chain-of-thought.
利用生成增強檢索和分層思維鏈來提升大型語言模型的自動臨床評估能力。 Artif Intell Med 2025-02-20

這項研究提出了一種名為「GAPrompt」的新方法，旨在提升大型語言模型（LLMs）在自動化臨床評估中的應用，特別是針對電子健康紀錄（EHRs）中的中風評估。GAPrompt包含五個關鍵組件，包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示，GAPrompt能有效分析EHRs並提供定量評估，解決傳統中風評估的勞動密集問題，顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

Prompts to Table: Specification and Iterative Refinement for Clinical Information Extraction with Large Language Models.
使用大型語言模型進行臨床信息提取的提示到表格：規範與迭代精煉。 medRxiv 2025-02-24

從自由文本醫療紀錄中提取結構化數據，特別是病理報告，面臨不少挑戰。傳統方法因醫療語言複雜而困難重重。這項研究開發了一個端到端的LLM管道，能有效提取病理報告中的診斷、解剖部位等元素。透過人機協作，我們將重大錯誤率降至0.99%。在3520份報告中，識別腎腫瘤亞型的F1分數達0.99，顯示LLM提取管道在良好指示下可達接近專家準確性，並可應用於其他臨床信息提取任務。 PubMed DOI

Comprehensive testing of large language models for extraction of structured data in pathology.
大型語言模型在病理學中結構化數據提取的綜合測試。 Commun Med (Lond) 2025-03-31

病理科部門產生大量非結構化數據，主要以自由文本的診斷報告形式存在，轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務，但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集，評估了六個語言模型的提取能力。研究顯示，開源模型在提取結構化數據方面的精度與專有模型相當，且具成本效益和隱私保護潛力，為醫療機構提供了重要見解。 PubMed DOI

Role of Model Size and Prompting Strategies in Extracting Labels from Free-Text Radiology Reports with Open-Source Large Language Models.
開源大型語言模型在從自由文本放射學報告中擷取標籤時，模型規模與提示策略的角色 J Imaging Inform Med 2025-05-05

開源大型語言模型（LLMs）在從放射科報告擷取標籤上，比傳統規則式工具（如 CheXpert）更準確。規模較大的 LLMs，特別在判讀困難異常（如肋骨骨折）時，敏感度更高。不同提示策略（如 chain-of-thought）效果不一。即使標籤有雜訊，用 LLM 擷取的標籤訓練影像分類器，表現仍不錯，但最終評估結果會受標註方法影響很大。因此，選對 LLM、提示方式和評估方法對醫療 AI 發展很重要。 PubMed DOI

Prompt Engineering for Large Language Models in Interventional Radiology.
介入放射學中大型語言模型的提示工程 AJR Am J Roentgenol 2025-05-07

這篇文章介紹了幾種常見的提示工程技巧，像是 zero-shot、few-shot 和 chain-of-thought，說明它們如何幫助提升 AI 在介入放射學領域的表現。內容也討論資料隱私、法規等挑戰，並展望未來像檢索增強生成、多模態模型等新方向。 PubMed DOI

Cross-Institutional Evaluation of Large Language Models for Radiology Diagnosis Extraction: A Prompt-Engineering Perspective.
跨機構評估大型語言模型於放射診斷萃取之表現：以提示工程觀點分析 J Imaging Inform Med 2025-05-09

這項研究用標準化、針對人類優化的提示語，讓大型語言模型標註六家醫院的放射科報告，結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語，LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

Iterative refinement and goal articulation to optimize large language models for clinical information extraction.
以反覆精煉與目標明確化優化大型語言模型於臨床資訊擷取 NPJ Digit Med 2025-05-23

作者開發了一套端到端流程，運用大型語言模型（LLMs）從非結構化的病理報告中精準擷取並標準化資料，最初應用於腎臟腫瘤。這方法結合彈性提示設計、直接產生表格輸出及錯誤修正機制，於2,297份報告中達到極高準確率（macro F1最高0.99），也能應用於其他癌症，強調明確任務定義和跨領域合作的重要性。 PubMed DOI

Clinical Information Extraction with Large Language Models: A Case Study on Organ Procurement.
利用大型語言模型進行臨床資訊擷取：以器官摘取為案例研究 AMIA Annu Symp Proc 2025-05-26

這篇文章說明大型語言模型（LLMs）能準確從臨床文本抓取數值資料，像是檢驗數據和生命徵象。作者提出新提示策略和方法，能有效降低錯誤，並在標註病歷上驗證成果，也證明這方法適用於大量器官捐贈者資料分析，有助提升器官採集資料的研究可用性。 PubMed

A comparative evaluation of chain-of-thought-based prompt engineering techniques for medical question answering.
基於 chain-of-thought 的提示工程技術於醫學問答之比較性評估 Comput Biol Med 2025-07-02

這項研究發現，不同Chain-of-Thought（CoT）提示方法對大型語言模型在醫學推理上的表現差異不大，簡單的CoT提示效果就很好。模型本身和資料集特性對準確率影響更大。以臨床紀錄為主的任務中，o1-mini模型表現最佳。總結來說，臨床決策應用上，建議優先採用簡單的CoT方法。 PubMed DOI

原始文章

站上相關主題文章列表