原始文章

這篇論文評估了不同微調的生成大型語言模型(LLMs)在臨床領域的零樣本命名實體識別(NER)表現。研究在第八屆生物醫學聯結註解黑客松進行,重點分析Llama 2和Mistral模型,並比較其基本版本與針對特定任務微調的版本。使用的數據集標註了疾病、症狀和醫療程序。結果顯示,經過指示微調的模型在實體識別上表現優於聊天微調和基本模型,且在要求簡單輸出結構時表現也有所提升。 PubMed DOI


站上相關主題文章列表

這項研究評估了多種大型語言模型(LLMs)在從電子健康紀錄中提取數據的表現,使用了50份合成醫療筆記。共測試了18個LLM,並與基準模型RoBERTa比較,涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等,準確率超過0.98,明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性,顯示出能有效協助數據提取,減輕醫療人員的負擔。不過,仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這篇論文探討了六種大型語言模型(LLMs)在自動化出院摘要方面的有效性,並提出了一種新的自動評估指標,與人類評估結果相符。研究使用F1-Score來評估模型表現,並與醫療專業人員的評估進行比較。結果顯示,雖然LLMs有潛力,但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI

最近大型語言模型(LLMs)在醫療應用上展現潛力,但通常缺乏專業醫學知識。為了解決這個問題,我們推出了Me-LLaMA,這是一系列開源的醫療LLMs,結合了專業知識與強大的指令遵循能力。Me-LLaMA透過持續預訓練和指令調整,利用生物醫學和臨床數據進行開發。 我們在六個文本分析任務中評估Me-LLaMA,結果顯示其在診斷複雜病例方面的表現優於現有的開放醫療LLMs,並且在大多數任務中超越了ChatGPT和GPT-4。這強調了持續預訓練與指令調整結合的重要性,以提升醫療LLMs的效能。 PubMed DOI

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據,但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型,但效果仍不如傳統監督方法。我們提出一種新方法,結合LLMs的微調與弱監督,僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據,並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試,結果顯示僅用10個金標準筆記,模型F1分數超越PubMedBERT,提升幅度達4.7-47.9%。使用50個金標準筆記時,性能可與完全微調系統相媲美。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究評估了生物醫學調整的大型語言模型(LLMs)在臨床任務中的表現,與通用模型相比。研究發現,生物醫學LLMs的表現通常不如通用模型,尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似,但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念,建議探索其他策略,如檢索增強生成,以更有效地整合LLMs進入臨床環境。 PubMed DOI

這項研究探討如何用 Llama 3.1-8B 這類大型語言模型,從澳洲長照機構的護理紀錄中擷取失智症患者的躁動行為和營養不良風險資訊。結果發現,少樣本學習比零樣本學習好,PEFT 技術能提升兩者表現,RAG 只對少樣本有幫助。最佳組合是少樣本加 RAG,但零樣本加 PEFT 也差不多好,提供臨床資訊擷取的實用參考。 PubMed DOI

這篇論文比較了在 XL-BEL 多語言生醫資料集上,判別式和生成式大型語言模型做跨語言生醫概念正規化的效果。結果發現,判別式模型 e5 表現最好,生成式模型以 BioMistral 最優。相關程式碼已公開在 GitHub。 PubMed DOI

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現,雖然用了多種技術,LLMs 在這類任務上還是有不少困難,並針對醫療應用提出改進建議。 PubMed