原始文章

這項研究探討自然語言處理(NLP)在臨床決策中的應用,特別針對西班牙語的轉診優先級排序和專科分類。研究發現,臨床特定的預訓練語言模型表現最佳,轉診優先級排序的宏觀F1分數達88.85%,專科分類為53.79%。雖然繼續預訓練稍微提升性能,但相對於計算成本,這些提升不算明顯。大型語言模型的少量學習在數據稀缺時仍有用。研究為臨床NLP從業者提供實用建議,強調考量數據可用性和任務複雜性。 PubMed DOI


站上相關主題文章列表

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據,但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型,但效果仍不如傳統監督方法。我們提出一種新方法,結合LLMs的微調與弱監督,僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據,並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試,結果顯示僅用10個金標準筆記,模型F1分數超越PubMedBERT,提升幅度達4.7-47.9%。使用50個金標準筆記時,性能可與完全微調系統相媲美。 PubMed DOI

這項研究探討如何利用臨床實踐指導(CPGs)來強化大型語言模型(LLMs),以改善針對 COVID-19 的門診治療決策。研究開發了三種整合 CPGs 的方法:二元決策樹、程式輔助圖形構建和思考鏈少量提示,並以零樣本提示作為基準。結果顯示,所有 LLMs 在有 CPG 增強的情況下表現優於零樣本提示,特別是二元決策樹在自動評估中表現最佳。這顯示出帶有 CPG 的 LLMs 能提供更準確的治療建議,未來應用潛力廣泛。 PubMed DOI

大數據與人工智慧在醫療保健中結合,特別是透過電子健康紀錄(EHR)的分析,能顯著提升診斷準確性。然而,處理大量非結構化數據是一大挑戰。本研究探討大型語言模型(LLMs)在分類含排版錯誤的EHR文本的有效性。研究以哈哲特佩大學的兒科急診室數據為例,經微調的GPT-3模型在識別呼吸道感染病例上達到99.88%準確率,顯著優於預訓練模型的78.54%。結果顯示,微調的LLMs能高效分類非結構化EHR數據,提升醫療數據處理的效率與可靠性。 PubMed DOI

大型語言模型(LLMs)對醫療領域的自然語言處理(NLP)影響深遠,近期的研究顯示,專為醫療文本設計的LLMs逐漸受到重視。這篇回顧分析了基於LLMs的生物醫學NLP,資料來源涵蓋多個學術平台,重點在醫學文獻、電子健康紀錄(EHRs)及社交媒體。雖然通用LLMs如GPT-4被廣泛使用,但針對特定應用的自訂LLMs趨勢上升。傳統模型在某些任務上仍優於新型LLMs,但後者在少量學習和生成任務中表現佳。未來研究需關注評估、偏見及公平性等議題。 PubMed DOI

**重點摘要:** 這項研究評估了多個大型語言模型(LLMs)以及一個檢索增強生成(RAG)流程,並以2,000個醫療案例作為測試。結果顯示,LLMs能夠協助病人和臨床醫師,像是提供可能的診斷、建議合適的專科醫師,以及評估緊急程度,有機會提升醫療決策品質和醫療服務的效率。 PubMed DOI

大型語言模型在醫療文件撰寫和決策輔助上很有潛力,但因準確性、驗證、偏見和隱私等問題,現階段還不適合完全自動化臨床應用。未來要安全有效導入,需加強研究、訂定明確規範,並維持人工監督。 PubMed DOI

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現,雖然用了多種技術,LLMs 在這類任務上還是有不少困難,並針對醫療應用提出改進建議。 PubMed

這篇研究發現,針對不同臨床紀錄類型設計的NLP模型,在預測住院死亡風險上,比傳統方法和34種大型語言模型(LLMs)都更準確。雖然LLMs在其他領域很強,但在這個任務上表現不佳,顯示現有LLMs在臨床應用上還有限制。這個新模型也有助於找出最有用的臨床紀錄。 PubMed DOI

這項研究發現,透過 embedding similarity 動態挑選最相關範例來做 few-shot prompting,可以大幅提升開源輕量級 LLM 在臨床紀錄分類的表現。這方法比 zero-shot 最多提升 39.3% macro F1 分數,也比靜態 few-shot 高出 21.1%,證明在臨床 NLP 任務上很有實用價值。 PubMed DOI

這篇綜述分析270篇文獻,發現現有大型語言模型(如GPT-4)雖然能協助醫師處理多種臨床任務,但沒有單一模型能全面勝任所有需求,專業任務還需客製化。多數先進模型又是封閉原始碼,造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引,幫助醫師選擇合適的LLM。 PubMed DOI