Classifying Unstructured Text in Electronic Health Records for Mental Health Prediction Models: Large Language Model Evaluation Study.
電子健康紀錄中非結構化文本的分類以進行心理健康預測模型：大型語言模型評估研究。 JMIR Med Inform 2025-01-26

這項研究探討大型語言模型（LLMs）在分類與心理健康相關的電子健康紀錄（EHRs）術語的有效性，並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據，分析了因心理健康問題入院的病人EHR。結果顯示，LLM與臨床醫生在術語的廣泛分類上達成高一致性（κ=0.77），但在具體的心理健康（κ=0.62）和身體健康術語（κ=0.69）上則較低，顯示出LLM的變異性。儘管如此，研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

Leveraging large language models for knowledge-free weak supervision in clinical natural language processing.
利用大型語言模型在臨床自然語言處理中進行無知識的弱監督學習。 Sci Rep 2025-03-11

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據，但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型，但效果仍不如傳統監督方法。我們提出一種新方法，結合LLMs的微調與弱監督，僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據，並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試，結果顯示僅用10個金標準筆記，模型F1分數超越PubMedBERT，提升幅度達4.7-47.9%。使用50個金標準筆記時，性能可與完全微調系統相媲美。 PubMed DOI

Large Language Model-Based Assessment of Clinical Reasoning Documentation in the Electronic Health Record Across Two Institutions: Development and Validation Study.
基於大型語言模型的電子健康紀錄中臨床推理文檔評估：兩個機構的開發與驗證研究。 J Med Internet Res 2025-03-21

這項研究探討人工智慧在醫療上的應用，特別是命名實體識別（NER）和大型語言模型（LLMs），評估紐約大學和辛辛那提大學的電子健康紀錄中的臨床推理文件。分析了700份NYU和450份UC的住院醫師紀錄，並開發了多種AI模型。NYUTron LLM在NYU表現最佳，而GatorTron LLM在UC也有不錯的成績。研究顯示AI工具能顯著提升臨床推理的質量，並強調這些模型在不同醫療機構的應用潛力。 PubMed DOI

Natural Language Processing for Digital Health in the Era of Large Language Models.
大型語言模型時代的數位健康自然語言處理。 Yearb Med Inform 2025-04-08

大型語言模型（LLMs）對醫療領域的自然語言處理（NLP）影響深遠，近期的研究顯示，專為醫療文本設計的LLMs逐漸受到重視。這篇回顧分析了基於LLMs的生物醫學NLP，資料來源涵蓋多個學術平台，重點在醫學文獻、電子健康紀錄（EHRs）及社交媒體。雖然通用LLMs如GPT-4被廣泛使用，但針對特定應用的自訂LLMs趨勢上升。傳統模型在某些任務上仍優於新型LLMs，但後者在少量學習和生成任務中表現佳。未來研究需關注評估、偏見及公平性等議題。 PubMed DOI

A comparative analysis of large language models versus traditional information extraction methods for real-world evidence of patient symptomatology in acute and post-acute sequelae of SARS-CoV-2.
SARS-CoV-2 急性及後急性症狀群患者症狀學真實世界證據中，大型語言模型與傳統資訊擷取方法之比較分析 PLoS One 2025-05-15

這項研究發現，規則式系統 BioMedICUS 在從臨床紀錄擷取 COVID-19 症狀的準確度和族群公平性上，都比大型語言模型（LLaMA2-13B、LLaMA3-8B）表現更好。不過，LLMs 在某些情境下也有優勢。整體來說，LLMs 在公平性和泛化能力上還有待加強，未來需提升訓練資料和標註品質。 PubMed DOI

Large Language Models in Medicine: Clinical Applications, Technical Challenges, and Ethical Considerations.
醫學中的大型語言模型：臨床應用、技術挑戰與倫理考量 Healthc Inform Res 2025-05-19

大型語言模型在醫療文件撰寫和決策輔助上很有潛力，但因準確性、驗證、偏見和隱私等問題，現階段還不適合完全自動化臨床應用。未來要安全有效導入，需加強研究、訂定明確規範，並維持人工監督。 PubMed DOI

Large Language Models and Text Embeddings for Detecting Depression and Suicide in Patient Narratives.
大型語言模型與文本嵌入於病患敘述中偵測憂鬱與自殺的應用 JAMA Netw Open 2025-05-23

這項研究發現，大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中，準確辨識憂鬱症和自殺風險，尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估，但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

Extraction of Normalized Symptom Mentions From Clinical Narratives Using Large Language Models.
使用大型語言模型從臨床敘述中擷取標準化症狀提及 AMIA Annu Symp Proc 2025-05-26

**重點整理：** 這項研究顯示，只要搭配詳細的提示、範例和逐步推理，大型語言模型（LLMs）就能夠準確地從臨床紀錄中擷取出常見的病人症狀。跟傳統的機器學習方法相比，LLMs在從自由文本中辨識和標準化症狀資訊方面表現得更好，這有助於提升醫療流程，也能支持更多相關研究。 PubMed

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Using large language models to extract information from pediatric clinical reports.
利用大型語言模型從兒科臨床報告中擷取資訊 PLOS Digit Health 2025-07-23

大部分醫療紀錄都是非結構化，讓資料分析很困難。這項研究測試九種大型語言模型，能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型，表現都很優秀，最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案，有機會取代人工處理。 PubMed DOI

原始文章

站上相關主題文章列表