Performance of two large language models for data extraction in evidence synthesis.
兩個大型語言模型在證據綜合中的資料提取表現。 Res Synth Methods 2024-06-19

研究比較了Claude 2和GPT-4兩個大型語言模型在提取文章數據的表現。Claude 2使用PDF解析插件，準確率高達96.3％，GPT-4則為68.8％。兩者皆能辨識缺失數據並提取未明確報告的資訊。在提供文本時，兩者表現皆相當準確。研究指出語言模型在數據提取上的潛力，但也強調了準確的PDF解析和人工驗證的必要性。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Scalable information extraction from free text electronic health records using large language models.
使用大型語言模型從自由文本電子健康紀錄中進行可擴展的信息提取。 BMC Med Res Methodol 2025-01-28

這項研究探討開源大型語言模型（LLMs）在從電子健康紀錄（EHRs）中提取社會健康決定因素（SDoH）數據的效果。研究隨機選取200名患者，並由兩位審查者手動標記九個SDoH方面，達成93%的高一致性。結果顯示，LLMs的表現明顯優於基準模型，特別是在識別明確提及的SDoH方面。最佳模型openchat_3.5在所有SDoH方面的準確率最高。研究強調進一步精煉和專業訓練的潛力，以提升LLMs在臨床研究中的應用，最終改善醫療結果。 PubMed DOI

Language models for data extraction and risk of bias assessment in complementary medicine.
補充醫學中數據提取和偏倚風險評估的語言模型。 NPJ Digit Med 2025-01-31

這項研究評估大型語言模型（LLMs）在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法，如Moonshot-v1-128k和Claude-3.5-sonnet，準確率達95%以上；而LLM輔助的方法更佳，準確率可達97%以上。此外，LLM輔助的方法處理時間大幅縮短，分別只需14.7分鐘和5.9分鐘，傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示，LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI

Large Language Model Applications for Health Information Extraction in Oncology: Scoping Review.
腫瘤學中健康信息提取的大型語言模型應用：範疇回顧。 JMIR Cancer 2025-03-28

這篇回顧探討大型語言模型（LLMs）在腫瘤學中自動提取非結構化臨床文本的應用，強調其在提升癌症研究和病人照護的潛力。回顧分析了自2000年以來的24項研究，發現大多數使用BERT變體，少數使用Chat-GPT。研究顯示，LLMs能有效提取數據，減少醫療人員的手動工作量，並建議可減輕行政負擔，讓醫護人員更專注於病人照護。未來需進一步研究其在臨床實踐中的整合及表現。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Assessment and Integration of Large Language Models for Automated Electronic Health Record Documentation in Emergency Medical Services.
大型語言模型於緊急醫療服務自動化電子病歷紀錄之評估與整合 J Med Syst 2025-05-17

這項研究用多個大型語言模型（像是GPT-4、Claude 3.5等）來自動化產生EMS對話的電子病歷，結果比單一模型更準確，F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔，但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估，展現未來應用潛力。 PubMed DOI

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

Using large language models to extract information from pediatric clinical reports.
利用大型語言模型從兒科臨床報告中擷取資訊 PLOS Digit Health 2025-07-23

大部分醫療紀錄都是非結構化，讓資料分析很困難。這項研究測試九種大型語言模型，能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型，表現都很優秀，最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案，有機會取代人工處理。 PubMed DOI

原始文章

站上相關主題文章列表