原始文章

這篇論文評估了不同微調的生成大型語言模型(LLMs)在臨床領域的零樣本命名實體識別(NER)表現。研究在第八屆生物醫學聯結註解黑客松進行,重點分析Llama 2和Mistral模型,並比較其基本版本與針對特定任務微調的版本。使用的數據集標註了疾病、症狀和醫療程序。結果顯示,經過指示微調的模型在實體識別上表現優於聊天微調和基本模型,且在要求簡單輸出結構時表現也有所提升。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-4等大型語言模型和傳統監督式模型在臨床註記中提取資訊的表現。結果顯示,對於標籤不平衡的任務,大型語言模型可能比監督式模型更有效。雖然大型語言模型減少了標註數據的需求,但監督式模型搭配詳細標註仍能提供相當結果。使用大型語言模型可加速臨床自然語言處理研究,減少對精心策劃數據集的需求,潛在增進臨床研究中自然語言處理變數的應用。 PubMed DOI

大型語言模型在處理自然語言方面有很大潛力,特別是在文本生成、推理和少樣本學習方面表現優秀。然而,在生物醫學領域的命名實體識別方面,LLMs效果不如專門調校的模型好。為了解決這問題,開發了一種新的基於指令的學習方法,創建了BioNER-LLaMA。測試結果顯示,BioNER-LLaMA在生物醫學NER任務中表現優於GPT-4,與專門模型相當。這種方法有潛力提升LLMs在生物醫學和健康領域的競爭力,值得進一步研究。 PubMed DOI

研究使用Llama 2語言模型,透過HPO語料庫微調,提升罕見疾病概念的準確性。建立兩個語料庫,一個收錄標準HPO名稱和同義詞。微調後的模型能準確規範表型術語,即使有錯別字或新詞。這方法有助於臨床文本中識別醫學實體並標準化。 PubMed DOI

這項研究探討小型大型語言模型(sLLM)在從病理報告中提取關鍵資訊的效果。使用三個版本的Llama 2模型,參數從70億到700億不等,並在零樣本和五樣本學習情境下進行評估。結果顯示,700億參數的模型在五樣本情境下表現優異,顯示sLLM能有效提升數據提取的效率與準確性。研究強調範例學習的重要性,並討論模型大小、準確性及處理時間的權衡,支持在臨床環境中應用先進語言模型,以改善病人護理和生物醫學研究。 PubMed DOI

這項研究探討了使用開源、輕量級的生成大型語言模型(LLMs)來從腎臟病理報告中提取臨床資訊,特別針對狼瘡性腎炎。研究開發了一個標註架構並生成黃金標準數據集,評估了三個輕量級LLM的表現。結果顯示,Mistral和BioMistral的表現優於Llama 2,Mistral在腎小球亞型的F1分數達到0.996,免疫標記值的F1分數為0.898。這些結果顯示輕量級LLM在臨床資訊提取中的潛力,提供了資源密集型模型的可行替代方案。 PubMed DOI

您的研究顯示開源大型語言模型(LLMs)在醫療領域的潛力,特別是在德文臨床文本中提取心血管功能指標。透過分析497份心臟MRI報告,您成功提取14個指標,並達到95.4%的正確標註率和99.8%的命名實體識別準確率,顯示這些模型能有效處理醫療語言的複雜性。這項研究強調了開源LLMs在臨床環境中的應用潛力,並為未來在其他語言的醫療研究鋪路。 PubMed DOI

這項研究探討大型語言模型(LLMs)在中文生物醫學命名實體識別(BNER)任務的表現,這領域的研究相對較少。作者評估了多個LLMs,包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4,使用真實的中文電子病歷數據集及公共數據集。結果顯示,雖然LLMs在零樣本和少樣本情境下有潛力,但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型,而GPT-3.5在CCKS2017數據集上表現最佳,但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究,顯示其潛力並為未來應用提供指導。 PubMed DOI

這項研究探討了基於Transformer的預訓練大型語言模型(LLMs)在生物醫學領域的適應性與表現,特別針對自然語言推理(NLI)和命名實體識別(NER)兩個任務。研究旨在了解模型在這些任務上的表現與其捕捉資訊的能力之間的關係。分析了編碼器和解碼器基礎的LLMs的內部編碼及注意力機制,並比較了不同數據量微調前後的效果。結果顯示,模型的有效性與其內部機制中的特定模式有關,並提供了LLMs在生物醫學領域如何處理知識的見解。研究源代碼已在GitHub上公開。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在從電子健康紀錄中提取數據的表現,使用了50份合成醫療筆記。共測試了18個LLM,並與基準模型RoBERTa比較,涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等,準確率超過0.98,明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性,顯示出能有效協助數據提取,減輕醫療人員的負擔。不過,仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

這篇論文探討了六種大型語言模型(LLMs)在自動化出院摘要方面的有效性,並提出了一種新的自動評估指標,與人類評估結果相符。研究使用F1-Score來評估模型表現,並與醫療專業人員的評估進行比較。結果顯示,雖然LLMs有潛力,但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI