原始文章

實體與關係的聯合提取在資訊擷取中非常重要,尤其是在生物醫學文獻中。本文提出的模型有效解決了句內和句間的提取問題,對於長文本中的長距離依賴關係至關重要。模型結合了多種深度學習技術,如微調的BERT、圖卷積網絡、穩健學習及局部正則化條件隨機場,能準確識別生物醫學文本中的實體,並提取三元組關係。實驗結果顯示該模型在多個數據集上表現優異,促進了生物醫學知識圖譜的構建。相關代碼可在GitHub上獲取。 PubMed DOI


站上相關主題文章列表

研究提出一種方法,從藥品標籤中提取藥物資訊,強化藥物術語。比較各種NER模型,找出最適合提取藥物資訊的模型。使用規則關係提取算法和藥物搜尋方法建立藥物知識圖,並與術語伺服器中的藥物匹配。結果顯示BERT-CRF模型在NER方面表現最佳,藥物搜尋方法匹配準確率達77%。建議將此模型應用為網路服務,改善醫療藥物管理。 PubMed DOI

研究人員透過手動標註和深度學習技術,在生醫文獻中成功提取遺傳疾病相關資訊。他們標註了400篇文章,並達到高水準的準確度。使用BERT和DistilBERT模型進行訓練和測試,取得了優異的實體提取成果,特別是在變異實體的辨識上表現優異,與最先進的模型相當。 PubMed DOI

生物醫學文獻增加快速,需要自動識別生物醫學概念關係。LitCoin NLP挑戰評估這個潛力,提供語料庫。我們的自然語言處理系統採用集成學習和基於規則的方法,在命名實體識別和關係提取任務表現優異,勝過200多支隊伍。微調110億參數模型提升性能,並與OpenAI ChatGPT等大型語言模型進行測試,顯示在生物醫學任務中具有優勢。結果凸顯特定模型對生物醫學研究的重要性。 PubMed DOI

這篇論文討論了在生物醫學領域中處理自然語言的挑戰,特別是分類二元關係。作者評估了不同方法,像是微調BERT模型和生成式LLM,並檢視它們在不同情境下的表現。他們引入了一個新的生物醫學文本數據集,以協助研究關係分類。研究結果顯示這個任務對人類和模型都具有挑戰性,基於BERT的模型在某些領域表現優異,而LLM在其他領域表現良好。然而,這些模型仍無法達到人類水準,強調了高品質訓練數據和領域特定微調的重要性。 PubMed DOI

關係抽取是NLP中的一個任務,專注於提取生物醫學實體之間的語義關係。研究者們正在研究使用大型語言模型如GPT-3.5-turbo和GPT-4來進行這項任務。在研究中,這些模型在EU-ADR、GAD和ChemProt三個標準數據集上進行了測試,並取得了不錯的成績。在某些情況下,GPT模型的表現甚至可以與BioBERT和PubMedBERT相媲美。 PubMed DOI

這篇論文探討了一種利用大型語言模型來增強生物醫學關係提取的方法,特別是Gemini和GPT-4。研究中使用GPT-4生成增強的訓練數據,並將這些數據與不同模型的輸出結合,透過集成學習提升預測準確性。此外,Gemini的回應也用來微調BioNLP-PubMed-Bert分類模型。結果顯示,在BioCreative VIII Track 01挑戰的評估數據集上,精確度、召回率和F1分數都有所提升。想了解更多,可以透過提供的網址查詢。 PubMed DOI

命名實體識別(NER)模型在從非結構化醫療文本中提取結構化資訊方面非常重要,能識別疾病和治療等實體,對臨床決策和研究有幫助。近期基於BERT的深度學習進展提升了NER能力,但醫學術語的複雜性使得模型在不同數據集上的表現不一。本研究評估了七種NER模型在醫療文本分析中的表現,特別關注複雜術語和宏觀因素對準確性的影響。結果顯示,經微調的BERT在某些數據集上表現最佳,並強調了針對性優化的必要性,以增強臨床決策和開發更有效的醫療NER模型。 PubMed DOI

文件級關係三元組提取在生物醫學文本挖掘中非常重要,尤其是在藥物發現和生物醫學知識圖譜的建立上。不過,現有語言模型在新數據集和關係類型上泛化能力不足,影響其效能。為了解決這個問題,我們提出了一種漸進學習策略,發展出PLRTE模型,透過四級漸進學習過程來增強模型對各種生物醫學關係的理解。實驗結果顯示,我們的模型在DDI和BC5CDR數據集上性能提升5%到20%,並在未見過的Chemprot和GDA數據集上也展現出良好的泛化能力。 PubMed DOI

這項研究探討了研究人員在處理大量生物醫學文獻時的挑戰,並提出了一種混合方法,結合文本挖掘、圖神經網絡(GNNs)和微調的大型語言模型(LLMs)。這種方法旨在增強生物醫學知識圖譜,並解釋預測的關係。研究顯示,該方法在蛋白質相互作用數據集上達到0.772的馬修斯相關係數,並在失眠研究中識別出25個新的人類蛋白質相互作用。這種方法有助於加速治療靶點的發現,並提高文獻分析的效率。 PubMed DOI

整合生物醫學知識對改善醫療診斷和個人化治療至關重要,但面臨數據集術語不一致的挑戰。生物醫學實體對齊是關鍵,需識別不同數據集中的等效實體。近期,大型語言模型(LLMs)如BERT在處理異質數據上顯示潛力,但無單一模型能解決所有實體匹配問題。為此,我們提出兩階段LLM構建框架(TSLLM),透過多目標和單目標遺傳算法自適應選擇和結合LLM,提升異質實體的區分能力。測試結果顯示,TSLLM在實體匹配上表現優於現有技術。 PubMed DOI