原始文章

這篇文章介紹 MedRoBERTa.nl,是首個專為荷蘭語電子健康紀錄(EHR)訓練的大型語言模型。作者用匿名化的 EHR 資料預訓練模型,讓它更懂醫療用語。文中說明模型開發、資料匿名化流程,並和其他語言模型做比較。結果顯示,MedRoBERTa.nl 能提升醫療文本分析效果,有助於治療和病患康復相關研究。 PubMed DOI


站上相關主題文章列表

這項研究針對將非結構化醫療文本轉換為結構化格式的挑戰,提出了一個自動化的本地流程,確保使用開源大型語言模型(LLMs)時能維護數據隱私。研究針對包含敏感健康資訊的德語醫療文件進行測試,結果顯示在800份非結構化醫療報告中,數據提取的準確率高達90%,表現優於醫生和醫學生的手動提取。這顯示該流程能有效提升數據可用性,同時保障隱私。 PubMed DOI

這項研究探討了如何在有限計算資源下,利用非專有的大型語言模型(LLMs)協助醫療專業人員撰寫德語醫療文本。研究團隊訓練了四個擁有70億參數的模型,並與商業模型Claude-v2進行比較。結果顯示,BLOOM-CLP-German模型在自動評估中表現最佳,且在專家評估中,有93.1%的生成報告被認為可用,僅需少量修改。這顯示即使資源有限,仍能生成適合臨床的醫療文檔,強調選擇非英語模型時需考慮目標語言的重要性。 PubMed DOI

這項研究介紹了一個開源流程,利用本地的大型語言模型(LLM)"Llama 2" 從臨床文本中提取定量數據,專注於識別失代償性肝硬化的特徵。研究在MIMIC IV數據集中測試500名患者的病歷,成功識別五個關鍵臨床特徵,敏感度達100%,特異度96%。此外,對其他病症的檢測也相當高,顯示出本地部署的LLM在提取臨床信息方面的有效性,且硬體需求低。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在從電子健康紀錄中提取數據的表現,使用了50份合成醫療筆記。共測試了18個LLM,並與基準模型RoBERTa比較,涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等,準確率超過0.98,明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性,顯示出能有效協助數據提取,減輕醫療人員的負擔。不過,仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

這項研究針對低資源語言,特別是愛沙尼亞語,開發命名實體識別(NER)模型,目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據,作者提出三步驟方法:首先,利用本地訓練的GPT-2生成合成醫療數據;接著,使用GPT-3.5-Turbo和GPT-4對這些數據進行標註;最後,微調NER模型並測試真實醫療文本。研究結果顯示,藥物提取的F<sub>1</sub>分數為0.69,程序提取為0.38,顯示出在藥物識別上的有效性,並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI

這項研究用開源大型語言模型(像LLaMA3)自動產生德文出院摘要,並請醫師評估品質。結果顯示,AI生成的摘要資訊算完整,但常漏掉重要細節或出現錯誤,尤其在複雜病例時更明顯。研究也發現資料集太小、資料不全和模型德文醫學詞彙不足是主要挑戰,建議未來要用更多資料和微調模型,才能提升表現。 PubMed DOI

這項研究推出DRAGON challenge,提供28項任務和近2.9萬份標註荷蘭醫療報告,協助自動化標註臨床資料,促進AI診斷工具訓練。結果顯示,針對臨床資料預訓練的LLM表現較佳,但部分任務仍有進步空間。所有資料和程式碼都已公開,歡迎大家使用。 PubMed DOI

大型語言模型在醫療文件撰寫和決策輔助上很有潛力,但因準確性、驗證、偏見和隱私等問題,現階段還不適合完全自動化臨床應用。未來要安全有效導入,需加強研究、訂定明確規範,並維持人工監督。 PubMed DOI

這篇研究用 Bio_ClinicalBERT 等預訓練語言模型,提出產生去識別化合成臨床信件的方法。結果顯示,僅有編碼器的模型表現較佳,只要保留臨床實體,一般模型也能媲美專用模型。遮罩停用詞有助提升品質,遮罩名詞或動詞則會降低品質。BERTScore 是最佳評估指標。偶爾的幻覺對臨床應用影響不大。程式碼和模型已開源。 PubMed DOI

這項研究比較了幾款中型開源語言模型在去除法文臨床紀錄個資的表現,重點是能在一般電腦上運作。結果發現,Mistral 7B 微調後表現最好,準確率高達0.97,且幾乎不會改動原文內容。這方法能有效保護病患隱私,讓臨床資料更安全地用於醫療研究和系統優化。 PubMed DOI