原始文章

作者針對大型語言模型在醫療自然語言理解表現不佳,提出統一提示格式、多元醫療指令微調資料集,並以BioMistral微調成BioMistral-NLU。該模型在零樣本下於多項醫療NLU基準測試勝過原始BioMistral及ChatGPT、GPT-4等,證明多元任務指令微調能有效提升泛化能力。 PubMed


站上相關主題文章列表

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

大型語言模型(LLMs)有潛力顯著改變臨床醫學,能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過,這些模型的有效運用需謹慎設計提示,以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念,以及運用策略性提示技術,對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解,能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

這篇論文探討大型語言模型(LLMs)的進展,特別是在醫療領域的應用,像是開發專注於臨床準確性的醫療聊天機器人和虛擬助手。文中介紹了一個新型的多輪對話模型,具備以下創新特點: 1. **層正規化調整**:改善訓練的穩定性。 2. **上下文滑動窗口回覆預測**:更好地捕捉對話上下文。 3. **局部關鍵信息提煉**:提升回覆質量。 該模型在MIMIC-III和n2c2數據集上測試,顯示出顯著的改進,能有效支持患者和醫療提供者。 PubMed DOI

這項研究探討如何透過指令調整來提升大型語言模型(LLMs)在生物醫學自然語言處理任務的表現,像是命名實體識別(NER)、關係提取(RE)和醫學自然語言推理(NLI)。研究團隊使用約20萬個專注於指令的樣本來訓練模型,目的是達到與BioBERT和BioClinicalBERT等專門模型相當的效果。他們還分析了數據集的組成對模型表現的影響,並希望分享研究結果、代碼和模型,以促進該領域的進一步發展。 PubMed DOI

最近大型語言模型(LLMs)如ChatGPT和LLaMA在醫療應用上展現潛力,但因缺乏專業醫學知識,效果有限。為此,本研究推出Me-LLaMA,一系列開源醫療LLM,整合專業知識與指令遵循能力。Me-LLaMA經過大量生物醫學文獻訓練,並在六個醫療文本分析任務中表現優於LLaMA及其他開源醫療LLM,甚至在多數任務中超越ChatGPT和GPT-4。研究強調持續預訓練與指令調整的重要性,並希望透過公開資源促進醫療AI的發展。 PubMed DOI

這篇文章介紹了一個結構化的方法,幫助醫療專業人員有效運用大型語言模型(LLMs)。重點在於LLMs在臨床文檔和病人試驗匹配等醫療任務中的潛力。方法包括五個關鍵步驟: 1. **任務制定**:找出適合LLM的醫療任務。 2. **選擇LLMs**:根據需求選擇合適的模型。 3. **提示工程**:設計有效的提示來引導回應。 4. **微調**:調整LLMs以符合醫療應用。 5. **部署**:考慮法規、倫理及持續監測公平性。 目的是提供醫療人員安全有效整合LLMs的指導。 PubMed DOI

這項研究介紹了 MedS-Bench,旨在評估大型語言模型(LLMs)在臨床環境中的表現,涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM,發現它們在面對這些任務時表現不佳。為了解決這些問題,我們創建了 MedS-Ins,這是一個針對醫療應用的大規模指令調整數據集,包含58個醫療語料庫和500萬個實例。透過實驗,我們展示了該數據集的有效性,並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins,並鼓勵研究社群參與進一步發展。 PubMed DOI

最近大型語言模型(LLMs)在醫療應用上展現潛力,但通常缺乏專業醫學知識。為了解決這個問題,我們推出了Me-LLaMA,這是一系列開源的醫療LLMs,結合了專業知識與強大的指令遵循能力。Me-LLaMA透過持續預訓練和指令調整,利用生物醫學和臨床數據進行開發。 我們在六個文本分析任務中評估Me-LLaMA,結果顯示其在診斷複雜病例方面的表現優於現有的開放醫療LLMs,並且在大多數任務中超越了ChatGPT和GPT-4。這強調了持續預訓練與指令調整結合的重要性,以提升醫療LLMs的效能。 PubMed DOI

這項研究評估了生物醫學調整的大型語言模型(LLMs)在臨床任務中的表現,與通用模型相比。研究發現,生物醫學LLMs的表現通常不如通用模型,尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似,但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念,建議探索其他策略,如檢索增強生成,以更有效地整合LLMs進入臨床環境。 PubMed DOI

這項研究發現,結合 soft prompt-based learning 和大型語言模型(像 GatorTronGPT),能大幅提升從不同醫院和疾病的臨床文本中萃取社會健康決定因素(SDoH)的效果。經過 prompt-tuning 的 GatorTronGPT,F1 分數最高比傳統 fine-tuned 模型多出 21.8%,顯示它在跨領域應用上表現更好。 PubMed