原始文章

EnzChemRED是一個新資料集,旨在透過自然語言處理技術,提升從科學文獻中提取酶相關資訊的能力。該資料集包含1,210篇專家策劃的PubMed摘要,並標註了酶及其化學反應的識別碼。研究顯示,使用EnzChemRED微調的語言模型在識別蛋白質和化學物質方面表現優異,F1分數達86.30%。此外,這些模型在提取化學轉換和相關酶的能力也相當強大,為酶功能的策劃提供了有力支持。 PubMed DOI


站上相關主題文章列表

討論了利用預先訓練的語言模型從文本中提取科學知識的方法,包括命名實體識別和關係提取,並在材料化學任務中展示。可從句子或段落中擷取資訊,輸出為簡單英文句子或JSON格式。這方法可直接靈活地從研究論文中建立科學知識數據庫。 PubMed DOI

生物醫學文獻增加快速,需要自動識別生物醫學概念關係。LitCoin NLP挑戰評估這個潛力,提供語料庫。我們的自然語言處理系統採用集成學習和基於規則的方法,在命名實體識別和關係提取任務表現優異,勝過200多支隊伍。微調110億參數模型提升性能,並與OpenAI ChatGPT等大型語言模型進行測試,顯示在生物醫學任務中具有優勢。結果凸顯特定模型對生物醫學研究的重要性。 PubMed DOI

研究利用機器學習和自然語言處理技術,從科學文獻中提取二氧化碳電催化相關資訊。建立開源語料庫,包含基準和擴展語料庫,並開發精煉大型語言模型。目的是透過現代計算方法,促進發現新型且有效的電催化劑。 PubMed DOI

生物醫學研究中,提取關係對整理資料、藥物再利用和新發現很重要。研究者利用關係分類來改進SemMedDB,並透過PubMedBERT模型進行訓練。測試結果顯示準確度、召回率和F1分數皆有提升。SemMedDB應用於1.2萬個摘要後,資料量增加一倍,67%的新預測正確。這個模型展現了提升生物醫學文獻挖掘的潛力。詳細資訊請參考https://github.com/Michelle-Mings/SemRep_RelationClassification。 PubMed DOI

EnzChemRED是一個資料集,用來提取科學文獻中的酶功能和化學反應資訊,有助於改善語言模型識別蛋白質和化學物質。這個資料集可幫助建立酶功能地圖,引導知識庫如UniProtKB和Rhea的編目工作。EnzChemRED語料庫可免費下載。 PubMed DOI

酶功能對醫學和生物技術至關重要,但現有方法速度慢且解釋不清。ifDEEPre是DEEPre的新版本,利用自導注意力和生物知識快速預測酶功能。ifDEEPre比DEEPre快50倍,且儲存空間需求較少,在酶數據集上表現更好。這個模型準確捕捉複雜蛋白質模式和演化趨勢,可幫助設計新酶。ifDEEPre的網頁伺服器和程式碼對大眾開放使用。 PubMed DOI

科學文件中的化學資訊可用來深入了解。自動提取方法目前使用機器學習,但性能、可轉移性和擴展性有限。ChemREL是一個表現優異的新工具,能高準確地提取熔點和LD50值。比現有方法和GPT-4更好,整體F1分數達95.4%。ChemREL是開源的,旨在增進化學資訊提取,促進新發現。 PubMed DOI

這項研究強調了數據驅動和機器學習在有機化學中的重要性,特別是在將文獻中的非結構化文本轉為結構化反應數據。這對於提升反應預測和條件建議非常關鍵。研究人員微調了一個大型語言模型,從有機合成程序中提取反應信息,並依據開放反應數據庫格式化。經過微調後,模型在生成完整記錄時達到91.25%的準確率,單個數據欄位則為92.25%。研究還探討了模型的局限性及其在特定任務上的表現。 PubMed DOI

酵素在生物技術中非常重要,應用於食品、洗衣、製藥等領域,因為它們能催化化學反應。酵素的活性受pH值影響,每種酵素在特定pH範圍內表現最佳。為了解決這個挑戰,我們開發了一種基於語言模型的方法,預測酵素序列的最佳pH範圍。透過多種切分策略,我們的機器學習模型在不同蛋白質家族中展現高準確性,能快速識別具有理想pH的酵素,促進高通量探索。 PubMed DOI

自動生成知識圖譜能有效提升資訊的組織性與可及性,並加速發現與創新。本研究介紹了一個利用大型語言模型在主動學習框架下創建大規模知識圖譜的流程,專注於生鮮食品、成分與化學物質的關係。透過迭代的主動學習策略,從155,260篇科學論文中提取了230,848個食品-化學成分關係,其中46%為新發現。此外,還利用鏈接預測模型發掘了355個新的食品-化學關係,顯示出強烈的發現潛力。這項研究展示了如何透過文獻進行大規模自動學習,促進實際應用的發展。 PubMed DOI