原始文章

這篇論文探討了一種新型的命名實體識別(NER)方法,旨在克服大型語言模型(LLMs)的限制。傳統的LLMs會將句子壓縮成單一向量,可能會忽略命名實體的獨特語義,尤其是嵌套結構的情況。新模型使用判別性語言模型,將句子映射到高階語義空間,並將命名實體分解為實體主體和邊緣,提升解碼效果。作者提出的多目標學習架構在八個公共數據集上測試,顯示出優異表現,並改善了其他自然語言處理任務的語義表示。 PubMed DOI


站上相關主題文章列表

這篇論文評估了不同微調的生成大型語言模型(LLMs)在臨床領域的零樣本命名實體識別(NER)表現。研究在第八屆生物醫學聯結註解黑客松進行,重點分析Llama 2和Mistral模型,並比較其基本版本與針對特定任務微調的版本。使用的數據集標註了疾病、症狀和醫療程序。結果顯示,經過指示微調的模型在實體識別上表現優於聊天微調和基本模型,且在要求簡單輸出結構時表現也有所提升。 PubMed DOI

命名實體識別(NER)在自然語言處理中非常重要,生物醫學領域的應用稱為BioNER,面臨獨特挑戰,如嵌套結構和實體類別關聯。近期發展的BioNER模型多基於區域分類或大型語言模型,但仍難以有效處理這些挑戰。我們提出了一個新模型BEAN,專為生物醫學實體設計,能平衡嵌套結構與類別關聯。實驗結果顯示,BEAN在五個公共NER數據集上表現優異,並且是首個同時處理嵌套結構和類別關聯的BioNER模型。 PubMed DOI

這項研究開發了MedScaleNER框架,旨在透過基於測量的護理改善病人結果,特別是在非結構化的中文醫學文獻中識別醫學量表相關實體。由於標註數據有限,命名實體識別(NER)面臨挑戰。該框架結合大型語言模型(LLMs)和提示策略,成功識別量表名稱及測量項目。初步實驗顯示,GLM-4-0520與MedScaleNER結合後,達到59.64%的宏觀F1分數,顯示出顯著的改進,並為未來的研究提供了寶貴的見解。 PubMed DOI

這項研究針對低資源語言,特別是愛沙尼亞語,開發命名實體識別(NER)模型,目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據,作者提出三步驟方法:首先,利用本地訓練的GPT-2生成合成醫療數據;接著,使用GPT-3.5-Turbo和GPT-4對這些數據進行標註;最後,微調NER模型並測試真實醫療文本。研究結果顯示,藥物提取的F<sub>1</sub>分數為0.69,程序提取為0.38,顯示出在藥物識別上的有效性,並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI

這篇論文探討生物醫學文本中的命名實體識別(NER)挑戰,特別是在數據稀缺的情況下。作者指出現有數據增強方法的不足,可能會影響語義,且忽略多尺度句子特徵。為了解決這些問題,他們提出利用ChatGPT生成多樣化的數據,並採用動態卷積捕捉多尺度語義,結合PubMedBERT增強特徵表示。實驗結果顯示,這種方法在四個生物醫學NER數據集上表現優於現有模型,顯示出在數據增強和模型泛化上的有效性。 PubMed DOI

TEmbed-DDI 是一種新方法,利用大型語言模型的嵌入技術,結合醫療情境資訊,提升藥物交互作用(DDI)註釋的準確度。它不只看分子結構,還用有意義的文本特徵,讓藥物表示更完整。這方法在西藥和中藥的測試都表現優異,也是首次把中藥納入 DDI 註釋,未來在醫學研究和新藥開發很有潛力。 PubMed DOI

傳統自動作文評分系統只看單字和句子,無法掌握文章結構和語意。我們提出結合多層次語言特徵的混合模型,利用大型語言模型提升作文連貫性和品質評估。實驗證明,我們的方法比現有技術更準確,有助提升學生寫作評量的公正性與精確度。 PubMed DOI

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現,雖然用了多種技術,LLMs 在這類任務上還是有不少困難,並針對醫療應用提出改進建議。 PubMed

這篇研究發現,結合圖形和3D結構資料的蛋白質幾何深度模型(GDMs)能和大型語言模型(LLMs)更好對齊,且LLMs規模越大效果越好。罕見蛋白質較難對齊,但提升GDM嵌入維度、用兩層投影頭、或針對蛋白質微調LLM都能改善。對齊提升後,下游任務表現更好,也能減少模型產生錯誤資訊。 PubMed DOI

這篇論文提出一個結合深度語境嵌入和CNN的混合模型,專門提升像LLaMA2這類大型語言模型在標準化中文文本處理的表現。新方法能同時抓住語意和結構特徵,讓中文NLP任務更準確又有效率,並在多項測試中表現優異,也有望應用在翻譯和情感分析等領域。 PubMed DOI