原始文章

這篇論文探討了一種新型的命名實體識別(NER)方法,旨在克服大型語言模型(LLMs)的限制。傳統的LLMs會將句子壓縮成單一向量,可能會忽略命名實體的獨特語義,尤其是嵌套結構的情況。新模型使用判別性語言模型,將句子映射到高階語義空間,並將命名實體分解為實體主體和邊緣,提升解碼效果。作者提出的多目標學習架構在八個公共數據集上測試,顯示出優異表現,並改善了其他自然語言處理任務的語義表示。 PubMed DOI


站上相關主題文章列表

討論了利用預先訓練的語言模型從文本中提取科學知識的方法,包括命名實體識別和關係提取,並在材料化學任務中展示。可從句子或段落中擷取資訊,輸出為簡單英文句子或JSON格式。這方法可直接靈活地從研究論文中建立科學知識數據庫。 PubMed DOI

大型語言模型在處理自然語言方面有很大潛力,特別是在文本生成、推理和少樣本學習方面表現優秀。然而,在生物醫學領域的命名實體識別方面,LLMs效果不如專門調校的模型好。為了解決這問題,開發了一種新的基於指令的學習方法,創建了BioNER-LLaMA。測試結果顯示,BioNER-LLaMA在生物醫學NER任務中表現優於GPT-4,與專門模型相當。這種方法有潛力提升LLMs在生物醫學和健康領域的競爭力,值得進一步研究。 PubMed DOI

這篇論文介紹了一個結合大型語言模型與本地訓練的方法,用來處理複雜的語言任務,並以從病理報告中提取結構化狀態代碼為例進行了演示。研究使用了超過150,000份病理報告,比較了不同的模型架構,結果顯示LLaMA模型在各種指標上表現優異,尤其在大型數據集上。這項研究強調了在醫學領域中運用大型語言模型進行結構生成任務的效益。 PubMed DOI

您的研究顯示開源大型語言模型(LLMs)在醫療領域的潛力,特別是在德文臨床文本中提取心血管功能指標。透過分析497份心臟MRI報告,您成功提取14個指標,並達到95.4%的正確標註率和99.8%的命名實體識別準確率,顯示這些模型能有效處理醫療語言的複雜性。這項研究強調了開源LLMs在臨床環境中的應用潛力,並為未來在其他語言的醫療研究鋪路。 PubMed DOI

命名實體識別(NER)模型在從非結構化醫療文本中提取結構化資訊方面非常重要,能識別疾病和治療等實體,對臨床決策和研究有幫助。近期基於BERT的深度學習進展提升了NER能力,但醫學術語的複雜性使得模型在不同數據集上的表現不一。本研究評估了七種NER模型在醫療文本分析中的表現,特別關注複雜術語和宏觀因素對準確性的影響。結果顯示,經微調的BERT在某些數據集上表現最佳,並強調了針對性優化的必要性,以增強臨床決策和開發更有效的醫療NER模型。 PubMed DOI

這項研究探討大型語言模型(LLMs)在中文生物醫學命名實體識別(BNER)任務的表現,這領域的研究相對較少。作者評估了多個LLMs,包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4,使用真實的中文電子病歷數據集及公共數據集。結果顯示,雖然LLMs在零樣本和少樣本情境下有潛力,但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型,而GPT-3.5在CCKS2017數據集上表現最佳,但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究,顯示其潛力並為未來應用提供指導。 PubMed DOI

這項研究探討深度神經網絡(DNNs)在學習和泛化不同結構語言的表現,並與人類學習者進行比較。結果顯示,無論是大型語言模型還是遞迴神經網絡,當接觸到更具結構性的語言時,學習效果更佳。具體來說,DNNs在處理組合語言時,展現出更好的系統性泛化和模型間共識增加,且與人類學習模式更一致。這顯示DNNs也能從語言的組合特性中獲益,提升其作為理解人類語言學習模型的有效性。 PubMed DOI

這篇論文評估了不同微調的生成大型語言模型(LLMs)在臨床領域的零樣本命名實體識別(NER)表現。研究在第八屆生物醫學聯結註解黑客松進行,重點分析Llama 2和Mistral模型,並比較其基本版本與針對特定任務微調的版本。使用的數據集標註了疾病、症狀和醫療程序。結果顯示,經過指示微調的模型在實體識別上表現優於聊天微調和基本模型,且在要求簡單輸出結構時表現也有所提升。 PubMed DOI

命名實體識別(NER)在自然語言處理中非常重要,生物醫學領域的應用稱為BioNER,面臨獨特挑戰,如嵌套結構和實體類別關聯。近期發展的BioNER模型多基於區域分類或大型語言模型,但仍難以有效處理這些挑戰。我們提出了一個新模型BEAN,專為生物醫學實體設計,能平衡嵌套結構與類別關聯。實驗結果顯示,BEAN在五個公共NER數據集上表現優異,並且是首個同時處理嵌套結構和類別關聯的BioNER模型。 PubMed DOI

這篇論文探討生物醫學文本中的命名實體識別(NER)挑戰,特別是在數據稀缺的情況下。作者指出現有數據增強方法的不足,可能會影響語義,且忽略多尺度句子特徵。為了解決這些問題,他們提出利用ChatGPT生成多樣化的數據,並採用動態卷積捕捉多尺度語義,結合PubMedBERT增強特徵表示。實驗結果顯示,這種方法在四個生物醫學NER數據集上表現優於現有模型,顯示出在數據增強和模型泛化上的有效性。 PubMed DOI