原始文章

噬菌體(phages)是專門攻擊細菌的病毒,會產生去聚合酶來降解細菌表面的多醣結構。由於這些酶的序列多樣性,識別和註釋相當困難。為了解決這個問題,我們開發了DepoScope,一個利用微調的ESM-2模型和卷積神經網絡的機器學習工具,能準確識別去聚合酶序列及其活性區域。我們從INPHARED噬菌體基因組數據庫整理數據集,並建立多醣降解域數據庫,結合序列和氨基酸層級的預測,提升對噬菌體與細菌宿主互動的理解。 PubMed DOI


站上相關主題文章列表

研究發現,利用蛋白質語言模型能夠改善病毒序列註釋,發現新的病毒蛋白質,並擴展海洋病毒體系的註釋。這種方法在海洋微生物中找到新的DNA編輯蛋白質家族,提升病毒蛋白質的辨識,並帶來新的生物發現。 PubMed DOI

研究發現第二類微囊素具抗生素潛力,但因為短小且多樣,發現受限。利用蛋白語言模型探測微囊素於細菌基因組,比傳統BLAST更有效。可準確辨識微囊素,並發現被忽略的新微囊素。 PubMed DOI

蛋白質語言模型可幫助找出次級基因體樣本中的病毒基因組,增進對病毒多樣性和功能的了解。研究人員利用這些模型,在全球海洋病毒資料中為未標註的病毒序列加上有意義的標籤,擴展了病毒蛋白質家族的標註範圍。這方法有助於找出重要的病毒蛋白質,像是海洋微型藍綠藻中的整合酶和廣泛病毒元素中的蛋白質外殼。透過蛋白質語言模型,改善了病毒蛋白質的功能標註,有助於辨識不同病毒序列之間基因組組織的相似性,補充了現有的標註方法。 PubMed DOI

研究人員利用語言模型深入了解核糖體合成後的RiPP生物合成酶對底物挑選的複雜需求。他們研究了乳酸菌素生合成途中的LazBF和LazDEF酶,發現語言模型嵌入可改善底物挑選預測。透過轉移學習方法,提升模型在資料不足情況下的表現和效率,微調模型提供了設計RiPP生物合成底物庫的重要見解。 PubMed DOI

公開資料庫中註釋蛋白質序列,尤其是病毒蛋白質,挑戰性高。新方法結合大型語言模型(LLMs)和基於嵌入的軟對齊算法,提升註釋效率和可解釋性。這方法在識別和註釋序列方面優於傳統方法,尤其在病毒基因組學中。LLMs有潛力改進蛋白質功能推斷,提供更有效和精確的分子生物學研究方法。 PubMed DOI

UniProtKB中有超過2.51億個蛋白質,但只有0.25%有Pfam家族域標註,可能的家族域超過15000個。提出了基於轉移學習的新方法,使用大型語言模型(LLMs)在未標註數據上訓練,再在已標註數據上微調,準確性提高60%。該方法採用先進的LLMs和機器學習技術,程式碼和資料可於GitHub找到。 PubMed DOI

酶功能對醫學和生物技術至關重要,但現有方法速度慢且解釋不清。ifDEEPre是DEEPre的新版本,利用自導注意力和生物知識快速預測酶功能。ifDEEPre比DEEPre快50倍,且儲存空間需求較少,在酶數據集上表現更好。這個模型準確捕捉複雜蛋白質模式和演化趨勢,可幫助設計新酶。ifDEEPre的網頁伺服器和程式碼對大眾開放使用。 PubMed DOI

酵素在生物技術中非常重要,應用於食品、洗衣、製藥等領域,因為它們能催化化學反應。酵素的活性受pH值影響,每種酵素在特定pH範圍內表現最佳。為了解決這個挑戰,我們開發了一種基於語言模型的方法,預測酵素序列的最佳pH範圍。透過多種切分策略,我們的機器學習模型在不同蛋白質家族中展現高準確性,能快速識別具有理想pH的酵素,促進高通量探索。 PubMed DOI

噬菌體(phages)是微生物社群中重要但尚未完全了解的成分,因為它們需要細菌宿主來繁殖,能反映生態系統特徵和環境壓力。高通量測序技術已揭示噬菌體族群的多樣性,但病毒基因組的多樣性使得許多基因缺乏適當註解,限制了我們的理解。為了有效應用噬菌體於人類和環境健康,需發展新方法來組織和註解病毒序列。最近在自我監督學習方面的進展顯示出增強病毒蛋白同源性檢測的潛力,特別是在海洋病毒組的研究中。這篇綜述探討了大型語言模型在病毒註解中的潛力與挑戰,強調創新方法的重要性。 PubMed DOI

II類微菌素是一種有潛力的新型抗生素,但目前識別的數量有限。本研究探討利用蛋白質大型語言模型的數值嵌入來檢測細菌基因組中的微菌素,並與傳統的序列比對方法(如BLAST)進行比較。結果顯示,嵌入法在識別已知II類微菌素上更有效,還能發現一些傳統方法忽略的新型微菌素。隨著抗生素抗藥性問題日益嚴重,發現新的抗菌肽至關重要,這項研究為對抗細菌感染提供了新策略。 PubMed DOI