Large language models for data extraction from unstructured and semi-structured electronic health records: a multiple model performance evaluation.
從非結構化和半結構化電子健康紀錄中提取數據的大型語言模型：多模型性能評估。 BMJ Health Care Inform 2025-01-20

這項研究評估了多種大型語言模型（LLMs）在從電子健康紀錄中提取數據的表現，使用了50份合成醫療筆記。共測試了18個LLM，並與基準模型RoBERTa比較，涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等，準確率超過0.98，明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性，顯示出能有效協助數據提取，減輕醫療人員的負擔。不過，仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

Scalable information extraction from free text electronic health records using large language models.
使用大型語言模型從自由文本電子健康紀錄中進行可擴展的信息提取。 BMC Med Res Methodol 2025-01-28

這項研究探討開源大型語言模型（LLMs）在從電子健康紀錄（EHRs）中提取社會健康決定因素（SDoH）數據的效果。研究隨機選取200名患者，並由兩位審查者手動標記九個SDoH方面，達成93%的高一致性。結果顯示，LLMs的表現明顯優於基準模型，特別是在識別明確提及的SDoH方面。最佳模型openchat_3.5在所有SDoH方面的準確率最高。研究強調進一步精煉和專業訓練的潛力，以提升LLMs在臨床研究中的應用，最終改善醫療結果。 PubMed DOI

Large Language Models-Supported Thrombectomy Decision-Making in Acute Ischemic Stroke Based on Radiology Reports: Feasibility Qualitative Study.
基於放射學報告的大型語言模型支持急性缺血性中風血栓切除決策：可行性質性研究。 J Med Internet Res 2025-02-13

這項研究探討了大型語言模型（LLMs）在急性缺血性中風（AIS）病例中的應用，特別是機械性血栓切除術（MT）的適應性。研究分析了100名AIS患者的數據，LLM根據放射學報告、神經症狀、發病資訊和患者年齡進行判斷。結果顯示，該AI模型的整體準確率達88%，特異性96%，敏感性80%，曲線下面積為0.92，顯示出LLMs在整合醫療數據方面的潛力，並鼓勵進一步探索其在臨床的應用。 PubMed DOI

Llama 3.1 405B Is Comparable to GPT-4 for Extraction of Data from Thrombectomy Reports-A Step Towards Secure Data Extraction.
Llama 3.1 405B 在血栓切除報告中的數據提取上可與 GPT-4 相媲美 - 朝向安全數據提取的一步。 Clin Neuroradiol 2025-02-25

這項研究評估了多種大型語言模型（LLMs）在從機械血栓切除術的自由文本報告中提取程序細節的表現，並與GPT-4進行比較。測試的模型包括Llama3.1 405B、Llama3 70B、Llama3 8B和Mixtral 8X7B，分析了130份來自兩個機構的報告。結果顯示，Llama3.1 405B的數據提取準確率達93.5%，與GPT-4相當。Llama3 70B的準確率為90.6%（英語）和88.2%（德語），而Llama3 8B和Mixtral 8X7B的準確率均為86.1%。總體而言，Llama3.1 405B在數據提取上可作為安全的本地替代方案，特別適合重視個人數據隱私的情況。 PubMed DOI

Utilizing large language models for detecting hospital-acquired conditions: an empirical study on pulmonary embolism.
利用大型語言模型檢測醫院獲得的病症：針對肺栓塞的實證研究。 J Am Med Inform Assoc 2025-03-19

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰，並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷，發現40例肺栓塞不良事件，流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組，評估了四個開源模型，結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能，並建議未來應加強上下文理解和醫學術語解釋，以提升檢測能力。 PubMed DOI

Comprehensive testing of large language models for extraction of structured data in pathology.
大型語言模型在病理學中結構化數據提取的綜合測試。 Commun Med (Lond) 2025-03-31

病理科部門產生大量非結構化數據，主要以自由文本的診斷報告形式存在，轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務，但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集，評估了六個語言模型的提取能力。研究顯示，開源模型在提取結構化數據方面的精度與專有模型相當，且具成本效益和隱私保護潛力，為醫療機構提供了重要見解。 PubMed DOI

Using Large Language Models to Automate Data Extraction From Surgical Pathology Reports: Retrospective Cohort Study.
使用大型語言模型自動化外科病理報告中的數據提取：回顧性隊列研究。 JMIR Form Res 2025-04-07

這項研究探討使用本地部署的大型語言模型（LLM）自動回答醫療問題，特別針對甲狀腺癌的外科病理報告。研究比較了LLM與人類審閱者在提取關鍵資訊的表現。結果顯示，人類審閱者的一致率高達99%，而LLM的平均一致率為89%。在效率方面，LLM回答問題的時間約19.56分鐘，遠低於審閱者的170.7分鐘和115分鐘。研究顯示LLM能有效協助醫療問題回答，並有潛力進一步改善數據提取能力。 PubMed DOI

A comparative analysis of privacy-preserving large language models for automated echocardiography report analysis.
用於自動心臟超音波報告分析之隱私保護大型語言模型的比較分析 J Am Med Inform Assoc 2025-05-07

開源大型語言模型能準確擷取心臟超音波報告的重點資料，像是瓣膜疾病嚴重度和人工瓣膜有無，對建立大規模資料庫和疾病監控很有幫助。經過優化後，像Llama3.0-70B、Qwen2.0這些頂尖模型準確率超過98%，但處理速度較慢。小型模型判斷嚴重度較不準，但辨識人工瓣膜還不錯。主要錯誤來自分心或沒照指示。整體來說，LLMs自動化擷取資料很有潛力，但要兼顧準確和效率。 PubMed DOI

Data extraction from free-text stroke CT reports using GPT-4o and Llama-3.3-70B: the impact of annotation guidelines.
使用 GPT-4o 與 Llama-3.3-70B 從自由文本中風中風電腦斷層報告擷取資料：標註指引的影響 Eur Radiol Exp 2025-06-22

這項研究發現，給大型語言模型（如GPT-4o和Llama-3.3-70B）明確的標註指引，能大幅提升它們從中風CT報告擷取重點的準確度，其中GPT-4o表現最好。結果強調，清楚的指引對提升醫療自動化資料擷取很重要。 PubMed DOI

Using large language models to extract information from pediatric clinical reports.
利用大型語言模型從兒科臨床報告中擷取資訊 PLOS Digit Health 2025-07-23

大部分醫療紀錄都是非結構化，讓資料分析很困難。這項研究測試九種大型語言模型，能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型，表現都很優秀，最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案，有機會取代人工處理。 PubMed DOI

原始文章

站上相關主題文章列表