原始文章

實體與關係的聯合提取在資訊擷取中非常重要,尤其是在生物醫學文獻中。本文提出的模型有效解決了句內和句間的提取問題,對於長文本中的長距離依賴關係至關重要。模型結合了多種深度學習技術,如微調的BERT、圖卷積網絡、穩健學習及局部正則化條件隨機場,能準確識別生物醫學文本中的實體,並提取三元組關係。實驗結果顯示該模型在多個數據集上表現優異,促進了生物醫學知識圖譜的構建。相關代碼可在GitHub上獲取。 PubMed DOI


站上相關主題文章列表

這項研究專注於從非結構化的臨床筆記中提取與腫瘤學相關的結構化資訊,特別是癌症藥物與症狀負擔的關係。研究人員建立了名為CACER的資料集,包含超過48,000個醫療問題和藥物事件的詳細註解。經過微調的BERT和Llama3模型在事件提取上表現最佳,F1分數分別為88.2和88.0,而GPT-4在這些任務中的表現最差。這顯示微調模型在特定任務上更有效,CACER資料庫為未來的醫療資訊提取研究提供了重要資源。 PubMed DOI

這項研究探討了研究人員在處理大量生物醫學文獻時的挑戰,並提出了一種混合方法,結合文本挖掘、圖神經網絡(GNNs)和微調的大型語言模型(LLMs)。這種方法旨在增強生物醫學知識圖譜,並解釋預測的關係。研究顯示,該方法在蛋白質相互作用數據集上達到0.772的馬修斯相關係數,並在失眠研究中識別出25個新的人類蛋白質相互作用。這種方法有助於加速治療靶點的發現,並提高文獻分析的效率。 PubMed DOI

在結構化資訊擷取(IE)領域,確保輸出符合語義和語法約束非常重要。傳統的編碼-解碼架構難以達成這些要求,因此研究者開始探索受語法約束的解碼方法。本研究檢視了微調的Longformer和Flan-T5模型在臨床試驗摘要中提取結構化資料的效果。結果顯示,受語法約束的解碼顯著提升了2型糖尿病和青光眼數據集的F1分數,而指標生成器則對性能造成負面影響。未來研究可探討大型語言模型的大小對這些解碼方法的影響。 PubMed DOI

命名實體識別(NER)在自然語言處理中非常重要,生物醫學領域的應用稱為BioNER,面臨獨特挑戰,如嵌套結構和實體類別關聯。近期發展的BioNER模型多基於區域分類或大型語言模型,但仍難以有效處理這些挑戰。我們提出了一個新模型BEAN,專為生物醫學實體設計,能平衡嵌套結構與類別關聯。實驗結果顯示,BEAN在五個公共NER數據集上表現優異,並且是首個同時處理嵌套結構和類別關聯的BioNER模型。 PubMed DOI

BioMedGPT是一個新型的多模態大型語言模型,專為生物醫學研究設計,克服了現有模型的限制。它透過廣泛的生物醫學文獻進行預訓練,增強知識基礎,並整合2D分子圖、蛋白質序列與自然語言。實驗結果顯示,BioMedGPT在理解生物醫學文件及回答研究問題上,表現與人類專家相當,並在分子和蛋白質問答任務中顯著提升ROUGE-L分數。相關資源已在GitHub上公開,供大家使用。 PubMed DOI

這篇論文探討生物醫學文本中的命名實體識別(NER)挑戰,特別是在數據稀缺的情況下。作者指出現有數據增強方法的不足,可能會影響語義,且忽略多尺度句子特徵。為了解決這些問題,他們提出利用ChatGPT生成多樣化的數據,並採用動態卷積捕捉多尺度語義,結合PubMedBERT增強特徵表示。實驗結果顯示,這種方法在四個生物醫學NER數據集上表現優於現有模型,顯示出在數據增強和模型泛化上的有效性。 PubMed DOI

這項研究探討大型語言模型(LLMs),如GPT-3.5、GPT-4.0和Claude-opus,在化學與疾病關係提取中的挑戰,特別是標註數據不足的情況。研究發現,這些模型在精確提取上達87%的F1分數,但全面提取僅73%。模型在提示工程上的改進有限,且對正向關係的識別較佳。提取錯誤多因模型誤解生物醫學文本的隱含意義。最後,研究提供了增強提取任務的工作流程,並強調優化訓練數據的重要性。 PubMed DOI

這項研究推出GDReCo語料庫和本體框架,專門用來提升基因與疾病關聯的文本擷取,解決NLP模型訓練資料不足的問題。GDReCo收錄超過2.4萬筆案例,結合人工與模型標註。用BERT訓練後,模型能更準確擷取基因-疾病關聯,對生醫研究很有幫助,但像ChatGPT這類模型在細節擷取上還是有難度。 PubMed DOI

這項研究發現,大型語言模型(LLMs)能自動從文本中擷取蛋白質交互等分子資料,表現比人工處理更有效率。雖然在部分基因細節上還有困難,但整體來說,LLMs有助於加速生物知識的發現與應用。 PubMed DOI

TrialSieve 是一套新架構,專門從臨床文獻中萃取生醫資訊,採用分層、以治療組為主的圖形結構,比傳統 PICO 更有效率。它推出含 1609 篇 PubMed 摘要、20 種實體類型的標註資料集,並測試多種 NLP 模型,發現 BioLinkBERT 和 PubMedBERT 表現最好。這套架構也讓人工標註更快更準,有助於自動化生醫資訊萃取。 PubMed DOI