原始文章

這篇論文提出了一個新的深度主動學習框架,專注於改善非結構化醫療數據的標註,特別是臨床筆記,使用SOAP格式。由於醫療數據標籤不明確,手動標註困難,因此採用基於變壓器的深度學習技術,自動化多類別文本分類的標註過程,減少手動工作量並提升分類性能。實驗結果顯示,該模型在F1分數上比現有方法提高了4.8%。這不僅提升了分類準確性,還為醫療專業人員提供了實用工具,可能改善臨床文檔和病患照護。研究建議未來可整合多模態數據和大型語言模型,進一步增強臨床文本分析。 PubMed DOI


站上相關主題文章列表

臨床文本和文件是重要的醫療資訊來源,利用先進的語言技術處理對於發展支援醫療保健和社會福祉的智慧系統至關重要。我們使用多語言神經網絡模型,如Transformer,以及大規模預先訓練的語言模型進行轉移學習,研究臨床文本機器翻譯。我們的研究顯示,小型預先訓練的語言模型在臨床領域微調中表現優於更大的模型,這是一個新的發現。這些結果對於醫療保健領域的機器翻譯發展具有重要意義。 PubMed DOI

Transformer神經網絡最初為處理自然語言而生,現在在醫療領域廣泛運用,用來分析各種數據。應用範圍包括臨床語言處理、醫學影像、電子病歷、社群媒體、生理訊號和生物序列。Transformer已用於手術指導、預測手術後結果、臨床診斷、報告生成、數據重建和藥物/蛋白合成。討論了在醫療中使用Transformer的優勢和限制,如計算成本、模型解釋性、公平性、與價值觀一致性、倫理和環境影響。 PubMed DOI

這項研究探討了在醫療保健領域應用預訓練大型語言模型(LLMs)的挑戰,特別是資源有限的情況下。研究開發了三種專門的預訓練方法,包括傳統的遮蔽語言模型、深度對比學習,以及結合醫療元數據的創新方法。結果顯示,對比訓練的模型在分類任務中表現最佳,雖然基於元數據的方法未提升分類性能,但在嵌入集群可分性上有趣的結果。整體而言,這項研究強調了專門預訓練方法在醫療保健自然語言處理中的潛力,並解決了數據隱私和資源限制的問題。 PubMed DOI

這項研究的目的是自動化從接受心導管檢查病人的電子病歷中提取不良事件,特別是根據NCDR-IMPACT登記資料庫定義的事件。數據來自Necker兒童醫院,最初透過正則表達式篩選,產生了許多假陽性。心臟科醫生利用主動學習進行標註,建立了包含2,980名病人的數據集,並訓練了一個深度學習文本分類器。最終模型在識別不良事件時,達到0.78的召回率和0.94的特異性,顯示主動學習在臨床研究中的潛力,特別是對於罕見疾病的標註數據。 PubMed DOI

這項研究提出了一種主動學習的方法,能自動從非結構化數據中提取臨床概念,並將其分類為問題、治療和檢測等類別。研究強調高精確度和召回率,並透過i2b2公共數據集進行實驗。使用基於詞彙的方法獲取標記數據,並採用BERT變體如ClinicalBERT和SCIBERT進行分類。結果顯示,SCIBERT在主動轉移學習中表現優異,並且結合CNN的深度學習模型達到高準確率,顯示出在臨床應用中的潛力。 PubMed DOI

這項研究探討了變壓器語言模型在臨床文件中識別敏感資訊的應用,解決了數據保護和手動去識別化的挑戰。研究人員使用1,130名患者的10,240份德國醫院文件,對一個德國的ELECTRA模型進行微調,以提升敏感數據檢測的表現。他們制定了標註指導方針,並將模型表現與100份手動標註的測試集進行比較。經過微調的gELECTRA模型達到F1宏觀平均分數0.95,超越人類標註者的0.93,顯示出其在真實臨床數據處理中的有效性。 PubMed DOI

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據,但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型,但效果仍不如傳統監督方法。我們提出一種新方法,結合LLMs的微調與弱監督,僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據,並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試,結果顯示僅用10個金標準筆記,模型F1分數超越PubMedBERT,提升幅度達4.7-47.9%。使用50個金標準筆記時,性能可與完全微調系統相媲美。 PubMed DOI

這項研究探討自動ICD編碼的挑戰,對保險理賠和疾病研究非常重要。由於臨床筆記複雜且變化多,手動編碼常常慢且易出錯。為了提升大型語言模型(LLMs)的表現,作者提出了一個微調框架,結合標籤注意機制、醫學知識注入及知識驅動的抽樣。實驗結果顯示,這個框架在MIMIC-III-50數據集上表現優於傳統微調方法,特別是在編碼器-解碼器模型中,準確率和F1分數都有顯著提升。 PubMed DOI

這項研究評估了現代自然語言處理技術,特別是大型語言模型在電子健康紀錄中提取「適應症」資訊的能力,針對抗生素處方進行分析。研究分析了938,150份處方,將4,000個常見適應症分類為11個感染相關類別。結果顯示,微調的Bio+Clinical BERT模型在測試中表現優異,F1分數達0.97和0.98,明顯優於傳統方法。研究結論指出,自由文本適應症能更有效識別感染來源,提升31%。整體而言,基於變壓器的模型在提取臨床數據中顯示出廣泛應用潛力。 PubMed DOI

大數據與人工智慧在醫療保健中結合,特別是透過電子健康紀錄(EHR)的分析,能顯著提升診斷準確性。然而,處理大量非結構化數據是一大挑戰。本研究探討大型語言模型(LLMs)在分類含排版錯誤的EHR文本的有效性。研究以哈哲特佩大學的兒科急診室數據為例,經微調的GPT-3模型在識別呼吸道感染病例上達到99.88%準確率,顯著優於預訓練模型的78.54%。結果顯示,微調的LLMs能高效分類非結構化EHR數據,提升醫療數據處理的效率與可靠性。 PubMed DOI