Developing healthcare language model embedding spaces.
發展醫療保健語言模型嵌入空間。 Artif Intell Med 2024-11-05

這項研究探討了在醫療保健領域應用預訓練大型語言模型（LLMs）的挑戰，特別是資源有限的情況下。研究開發了三種專門的預訓練方法，包括傳統的遮蔽語言模型、深度對比學習，以及結合醫療元數據的創新方法。結果顯示，對比訓練的模型在分類任務中表現最佳，雖然基於元數據的方法未提升分類性能，但在嵌入集群可分性上有趣的結果。整體而言，這項研究強調了專門預訓練方法在醫療保健自然語言處理中的潛力，並解決了數據隱私和資源限制的問題。 PubMed DOI

Active learning for extracting rare adverse events from electronic health records: A study in pediatric cardiology.
從電子健康紀錄中提取罕見不良事件的主動學習：一項在小兒心臟病學中的研究。 Int J Med Inform 2024-12-17

這項研究的目的是自動化從接受心導管檢查病人的電子病歷中提取不良事件，特別是根據NCDR-IMPACT登記資料庫定義的事件。數據來自Necker兒童醫院，最初透過正則表達式篩選，產生了許多假陽性。心臟科醫生利用主動學習進行標註，建立了包含2,980名病人的數據集，並訓練了一個深度學習文本分類器。最終模型在識別不良事件時，達到0.78的召回率和0.94的特異性，顯示主動學習在臨床研究中的潛力，特別是對於罕見疾病的標註數據。 PubMed DOI

Clinical concept annotation with contextual word embedding in active transfer learning environment.
在主動轉移學習環境中，使用上下文詞嵌入的臨床概念註釋。 Digit Health 2024-12-23

這項研究提出了一種主動學習的方法，能自動從非結構化數據中提取臨床概念，並將其分類為問題、治療和檢測等類別。研究強調高精確度和召回率，並透過i2b2公共數據集進行實驗。使用基於詞彙的方法獲取標記數據，並採用BERT變體如ClinicalBERT和SCIBERT進行分類。結果顯示，SCIBERT在主動轉移學習中表現優異，並且結合CNN的深度學習模型達到高準確率，顯示出在臨床應用中的潛力。 PubMed DOI

A Transformer-Based Pipeline for German Clinical Document De-Identification.
基於變壓器的德國臨床文件去識別化管道。 Appl Clin Inform 2025-01-08

這項研究探討了變壓器語言模型在臨床文件中識別敏感資訊的應用，解決了數據保護和手動去識別化的挑戰。研究人員使用1,130名患者的10,240份德國醫院文件，對一個德國的ELECTRA模型進行微調，以提升敏感數據檢測的表現。他們制定了標註指導方針，並將模型表現與100份手動標註的測試集進行比較。經過微調的gELECTRA模型達到F1宏觀平均分數0.95，超越人類標註者的0.93，顯示出其在真實臨床數據處理中的有效性。 PubMed DOI

Leveraging large language models for knowledge-free weak supervision in clinical natural language processing.
利用大型語言模型在臨床自然語言處理中進行無知識的弱監督學習。 Sci Rep 2025-03-11

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據，但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型，但效果仍不如傳統監督方法。我們提出一種新方法，結合LLMs的微調與弱監督，僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據，並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試，結果顯示僅用10個金標準筆記，模型F1分數超越PubMedBERT，提升幅度達4.7-47.9%。使用50個金標準筆記時，性能可與完全微調系統相媲美。 PubMed DOI

How to leverage large language models for automatic ICD coding.
如何利用大型語言模型進行自動 ICD 編碼。 Comput Biol Med 2025-03-15

這項研究探討自動ICD編碼的挑戰，對保險理賠和疾病研究非常重要。由於臨床筆記複雜且變化多，手動編碼常常慢且易出錯。為了提升大型語言模型（LLMs）的表現，作者提出了一個微調框架，結合標籤注意機制、醫學知識注入及知識驅動的抽樣。實驗結果顯示，這個框架在MIMIC-III-50數據集上表現優於傳統微調方法，特別是在編碼器-解碼器模型中，準確率和F1分數都有顯著提升。 PubMed DOI

Transformers and large language models are efficient feature extractors for electronic health record studies.
變壓器和大型語言模型是電子健康紀錄研究中高效的特徵提取器。 Commun Med (Lond) 2025-03-22

這項研究評估了現代自然語言處理技術，特別是大型語言模型在電子健康紀錄中提取「適應症」資訊的能力，針對抗生素處方進行分析。研究分析了938,150份處方，將4,000個常見適應症分類為11個感染相關類別。結果顯示，微調的Bio+Clinical BERT模型在測試中表現優異，F1分數達0.97和0.98，明顯優於傳統方法。研究結論指出，自由文本適應症能更有效識別感染來源，提升31%。整體而言，基於變壓器的模型在提取臨床數據中顯示出廣泛應用潛力。 PubMed DOI

Leveraging large language models to mimic domain expert labeling in unstructured text-based electronic healthcare records in non-english languages.
利用大型語言模型模擬非英語語言中無結構文本電子健康紀錄的領域專家標註。 BMC Med Inform Decis Mak 2025-04-01

大數據與人工智慧在醫療保健中結合，特別是透過電子健康紀錄（EHR）的分析，能顯著提升診斷準確性。然而，處理大量非結構化數據是一大挑戰。本研究探討大型語言模型（LLMs）在分類含排版錯誤的EHR文本的有效性。研究以哈哲特佩大學的兒科急診室數據為例，經微調的GPT-3模型在識別呼吸道感染病例上達到99.88%準確率，顯著優於預訓練模型的78.54%。結果顯示，微調的LLMs能高效分類非結構化EHR數據，提升醫療數據處理的效率與可靠性。 PubMed DOI

Mapping the Advanced-Stage Epithelial Ovarian Cancer Landscape Goes Beyond Words: Two Large Language Models, Eight Tasks, One Journey.
超越文字的晚期上皮卵巢癌景觀映射：兩個大型語言模型，八個任務，一段旅程。 J Clin Med 2025-04-12

本研究探討了深度學習模型在預測晚期上皮性卵巢癌患者手術結果的有效性，特別是使用非結構化的手術筆記。評估了RoBERTa和GatorTron兩個模型，結果顯示GatorTron在大多數任務中表現優於RoBERTa，顯示專為醫療設計的模型在理解醫療語言上有明顯優勢。不過，兩者在預測術後併發症和住院時間時仍面臨挑戰，顯示手術文本不足以全面反映術後恢復的複雜性。這些發現對提升患者護理質量的醫療AI系統發展至關重要。 PubMed DOI

Medical short text classification via Soft Prompt-tuning.
透過 Soft Prompt-tuning 進行醫學短文本分類 Front Med (Lausanne) 2025-04-29

這篇論文提出一種全新的 soft prompt-tuning 方法，專門用來分類醫療短文本，像是對話紀錄或線上諮詢。透過自動產生模板和擴充標籤詞彙，能更精準處理醫療術語和複雜單位。實驗證明，這方法不只提升分類準確率，也讓結果更容易理解，有效解決醫療短文本分類的難題。 PubMed DOI

原始文章

站上相關主題文章列表