原始文章

這項研究發現,像 Med-BERT 這種專為醫療設計的大型語言模型,比通用型模型更能處理不同醫院間的資料差異,提升知識轉移效果。通用模型如 OpenAI 需額外微調。未來建議持續研究如何在任務難度、資料量和微調之間取得最佳平衡。 PubMed


站上相關主題文章列表

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

這項研究探討了基於Transformer的預訓練大型語言模型(LLMs)在生物醫學領域的適應性與表現,特別針對自然語言推理(NLI)和命名實體識別(NER)兩個任務。研究旨在了解模型在這些任務上的表現與其捕捉資訊的能力之間的關係。分析了編碼器和解碼器基礎的LLMs的內部編碼及注意力機制,並比較了不同數據量微調前後的效果。結果顯示,模型的有效性與其內部機制中的特定模式有關,並提供了LLMs在生物醫學領域如何處理知識的見解。研究源代碼已在GitHub上公開。 PubMed DOI

這項研究探討了在醫療保健領域應用預訓練大型語言模型(LLMs)的挑戰,特別是資源有限的情況下。研究開發了三種專門的預訓練方法,包括傳統的遮蔽語言模型、深度對比學習,以及結合醫療元數據的創新方法。結果顯示,對比訓練的模型在分類任務中表現最佳,雖然基於元數據的方法未提升分類性能,但在嵌入集群可分性上有趣的結果。整體而言,這項研究強調了專門預訓練方法在醫療保健自然語言處理中的潛力,並解決了數據隱私和資源限制的問題。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在臨床領域的應用挑戰,特別是醫療紀錄的處理。研究聚焦於檢索增強生成(RAG)方法,並進行消融分析,了解不同嵌入模型和池化方法對信息檢索的影響。作者在兩個電子健康紀錄數據集上評估三個檢索任務,發現BGE模型在性能上優於較大的醫療專用模型。研究強調針對特定任務調整查詢的重要性,並為未來檢索系統設計提供指導,呼籲進一步實證研究以促進臨床檢索框架的發展。 PubMed DOI

這項研究提出了一種主動學習的方法,能自動從非結構化數據中提取臨床概念,並將其分類為問題、治療和檢測等類別。研究強調高精確度和召回率,並透過i2b2公共數據集進行實驗。使用基於詞彙的方法獲取標記數據,並採用BERT變體如ClinicalBERT和SCIBERT進行分類。結果顯示,SCIBERT在主動轉移學習中表現優異,並且結合CNN的深度學習模型達到高準確率,顯示出在臨床應用中的潛力。 PubMed DOI

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據,但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型,但效果仍不如傳統監督方法。我們提出一種新方法,結合LLMs的微調與弱監督,僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據,並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試,結果顯示僅用10個金標準筆記,模型F1分數超越PubMedBERT,提升幅度達4.7-47.9%。使用50個金標準筆記時,性能可與完全微調系統相媲美。 PubMed DOI

這項研究探討了使用遮蔽語言模型(MLM)在醫院特定領域的適應性,並應用於基於BERT的模型來分類神經放射學報告。分析了來自國王學院醫院和蓋伊與聖托馬斯信託醫院的超過200,000份MRI報告。結果顯示,經過適應的模型性能顯著提升,最佳訓練數據達到97.0%和95.5%的準確率。Llama-3.0 70B模型表現最佳,準確率分別為97.1%和94.0%。研究建議在臨床環境中使用醫院特定的模型適應,並指出LLM可作為有效替代方案。 PubMed DOI

這項研究評估了生物醫學調整的大型語言模型(LLMs)在臨床任務中的表現,與通用模型相比。研究發現,生物醫學LLMs的表現通常不如通用模型,尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似,但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念,建議探索其他策略,如檢索增強生成,以更有效地整合LLMs進入臨床環境。 PubMed DOI

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現,雖然用了多種技術,LLMs 在這類任務上還是有不少困難,並針對醫療應用提出改進建議。 PubMed

這項研究發現,結合 soft prompt-based learning 和大型語言模型(像 GatorTronGPT),能大幅提升從不同醫院和疾病的臨床文本中萃取社會健康決定因素(SDoH)的效果。經過 prompt-tuning 的 GatorTronGPT,F1 分數最高比傳統 fine-tuned 模型多出 21.8%,顯示它在跨領域應用上表現更好。 PubMed