Large language models for data extraction from unstructured and semi-structured electronic health records: a multiple model performance evaluation.
從非結構化和半結構化電子健康紀錄中提取數據的大型語言模型：多模型性能評估。 BMJ Health Care Inform 2025-01-20

這項研究評估了多種大型語言模型（LLMs）在從電子健康紀錄中提取數據的表現，使用了50份合成醫療筆記。共測試了18個LLM，並與基準模型RoBERTa比較，涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等，準確率超過0.98，明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性，顯示出能有效協助數據提取，減輕醫療人員的負擔。不過，仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

Assessment of large language models in medical quizzes for clinical chemistry and laboratory management: implications and applications for healthcare artificial intelligence.
大型語言模型在臨床化學和實驗室管理醫學測驗中的評估：對醫療人工智慧的影響與應用。 Scand J Clin Lab Invest 2025-02-19

這項研究評估了九個大型語言模型（LLMs）在醫學領域的表現，特別是在臨床化學和實驗室管理方面。使用零-shot提示法測試109個臨床測驗，結果顯示GPT-4o的準確率最高，達81.7%，其次是GPT-4 Turbo（76.1%）和Claude 3 Opus（74.3%）。這些模型在數字和計算任務上表現優異，顯示出它們能有效運用現有知識協助醫療專業人員進行決策，未來有潛力成為醫療輔助工具。 PubMed DOI

Large Language Model-Driven Knowledge Graph Construction in Sepsis Care Using Multicenter Clinical Databases: Development and Usability Study.
多中心臨床數據庫在敗血症護理中驅動大型語言模型的知識圖譜構建：開發與可用性研究。 J Med Internet Res 2025-03-27

這項研究利用GPT-4.0整合臨床數據，開發了一個全面的敗血症知識圖譜。敗血症是一種變異性大的病症，傳統知識圖譜建構困難。研究者從中國西部三家醫院建立了多中心敗血症數據庫，收集了10,544名患者的數據。透過GPT-4.0的技術，成功生成了包含1,894個節點和2,021個關係的知識圖譜，顯示其在實體識別和關係提取上的優越性。這項成果不僅增進了對敗血症的理解，也為臨床決策提供了支持，成為未來研究的寶貴資源。 PubMed DOI

Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。 Nat Commun 2025-04-05

生物醫學文獻快速增長，讓手動整理知識變得困難，生物醫學自然語言處理（BioNLP）希望透過自動化來解決這些問題。儘管大型語言模型（LLMs）在多個領域展現潛力，但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs，包括GPT和LLaMA，並與傳統模型如BERT和BART比較。結果顯示，傳統微調方法在大多數任務中表現較佳，但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能，研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

CDEMapper: enhancing National Institutes of Health common data element use with large language models.
CDEMapper：結合大型語言模型提升美國國家衛生研究院（NIH）共通資料元素的應用 J Am Med Inform Assoc 2025-05-07

這項研究推出 CDEMapper 工具，結合語意搜尋和大型語言模型，協助把本地資料對應到 NIH 的標準資料元素。CDEMapper 不只提升對應準確率，也讓操作更方便，有助於資料互通和重複利用。評估結果顯示，這工具比傳統人工方法更有效率，展現 LLM 在資料對應上的優勢。 PubMed DOI

Comparative Analysis of ChatGPT-4 for Automated Mapping of Local Medical Terminologies to SNOMED CT.
ChatGPT-4 用於自動對應在地醫學術語至 SNOMED CT 的比較分析 Stud Health Technol Inform 2025-05-17

這項研究比較四種GPT-4方法，把韓國醫院的診斷用語自動對應到SNOMED CT。結果顯示，RAG模型表現最好，有96.2%能成功對應，完全吻合率也最高。RAG的結構性錯誤率最低，但在細節準確度上還有進步空間。整體來說，AI輔助有助於醫療資料標準化，但臨床驗證還需加強。 PubMed DOI

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Large Language Models Can Extract Metadata for Annotation of Human Neuroimaging Publications.
大型語言模型可用於提取人類神經影像學文獻的註釋中繼資料 bioRxiv 2025-06-04

最新的商業大型語言模型（像GPT-4o），在神經影像的中繼資料標註上，表現幾乎跟專業人員一樣好（zero-shot下得分0.91–0.97），錯誤率也差不多，很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集，方便未來測試。 PubMed DOI

Large Language Models in Medical Diagnostics: Scoping Review With Bibliometric Analysis.
醫學診斷中大型語言模型的應用：範疇性回顧與文獻計量分析 J Med Internet Res 2025-06-09

這篇綜述整理了LLMs在醫療診斷的最新應用，像是疾病分類和醫學問答，特別以GPT-4和GPT-3.5為主。雖然在放射科、精神科等領域表現不錯，但還是有偏見、隱私和法規等問題。未來要加強驗證、減少偏見、提升可解釋性，並統一法規，才能讓LLMs更安全地應用在醫療上。 PubMed DOI

Annotation of biological samples data to standard ontologies with support from large language models.
結合大型語言模型輔助，將生物樣本數據註釋至標準本體的研究 Comput Struct Biotechnol J 2025-06-13

這篇研究用微調過的GPT大型語言模型，來自動把生物樣本標籤對應到本體論術語，減少人工註解負擔。實驗結果顯示，GPT模型在細胞株和細胞類型的召回率高達88–97%，但精確度只有47–64%。雖然能提升註解效率，但精確度還有進步空間，專家審查仍不可少。 PubMed DOI

原始文章

站上相關主題文章列表