原始文章

噬菌體是專門感染細菌的病毒,對微生物生態系統非常重要。了解噬菌體的生物學,尤其是其蛋白質功能,對研究至關重要。雖然透過宏基因組測序已發現許多新噬菌體,但因多樣性和註解不足,許多蛋白質功能仍不明確。為此,我們開發了GOPhage工具,利用噬菌體基因組的模組化結構來進行蛋白質註解。GOPhage顯著提高了對分歧蛋白和不常見功能蛋白的註解準確性,並能處理無同源性搜索結果的蛋白質,顯示出其在噬菌體研究中的潛力。 PubMed DOI


站上相關主題文章列表

研究發現,利用蛋白質語言模型能夠改善病毒序列註釋,發現新的病毒蛋白質,並擴展海洋病毒體系的註釋。這種方法在海洋微生物中找到新的DNA編輯蛋白質家族,提升病毒蛋白質的辨識,並帶來新的生物發現。 PubMed DOI

蛋白質語言模型可幫助找出次級基因體樣本中的病毒基因組,增進對病毒多樣性和功能的了解。研究人員利用這些模型,在全球海洋病毒資料中為未標註的病毒序列加上有意義的標籤,擴展了病毒蛋白質家族的標註範圍。這方法有助於找出重要的病毒蛋白質,像是海洋微型藍綠藻中的整合酶和廣泛病毒元素中的蛋白質外殼。透過蛋白質語言模型,改善了病毒蛋白質的功能標註,有助於辨識不同病毒序列之間基因組組織的相似性,補充了現有的標註方法。 PubMed DOI

公開資料庫中註釋蛋白質序列,尤其是病毒蛋白質,挑戰性高。新方法結合大型語言模型(LLMs)和基於嵌入的軟對齊算法,提升註釋效率和可解釋性。這方法在識別和註釋序列方面優於傳統方法,尤其在病毒基因組學中。LLMs有潛力改進蛋白質功能推斷,提供更有效和精確的分子生物學研究方法。 PubMed DOI

UniProtKB中有超過2.51億個蛋白質,但只有0.25%有Pfam家族域標註,可能的家族域超過15000個。提出了基於轉移學習的新方法,使用大型語言模型(LLMs)在未標註數據上訓練,再在已標註數據上微調,準確性提高60%。該方法採用先進的LLMs和機器學習技術,程式碼和資料可於GitHub找到。 PubMed DOI

研究蛋白質功能對找疾病治療和新藥很重要。GPSFun網站利用深度學習技術,幫助蛋白質功能註釋。它可預測蛋白質結構和功能,如結合位點和亞細胞位置,不需多重對齊或實驗結構,比現有方法更有效。免費使用網址:https://bio-web1.nscc-gz.cn/app/GPSFun。 PubMed DOI

噬菌體(phages)是專門攻擊細菌的病毒,會產生去聚合酶來降解細菌表面的多醣結構。由於這些酶的序列多樣性,識別和註釋相當困難。為了解決這個問題,我們開發了DepoScope,一個利用微調的ESM-2模型和卷積神經網絡的機器學習工具,能準確識別去聚合酶序列及其活性區域。我們從INPHARED噬菌體基因組數據庫整理數據集,並建立多醣降解域數據庫,結合序列和氨基酸層級的預測,提升對噬菌體與細菌宿主互動的理解。 PubMed DOI

噬菌體(phages)是微生物社群中重要但尚未完全了解的成分,因為它們需要細菌宿主來繁殖,能反映生態系統特徵和環境壓力。高通量測序技術已揭示噬菌體族群的多樣性,但病毒基因組的多樣性使得許多基因缺乏適當註解,限制了我們的理解。為了有效應用噬菌體於人類和環境健康,需發展新方法來組織和註解病毒序列。最近在自我監督學習方面的進展顯示出增強病毒蛋白同源性檢測的潛力,特別是在海洋病毒組的研究中。這篇綜述探討了大型語言模型在病毒註解中的潛力與挑戰,強調創新方法的重要性。 PubMed DOI

你的megaDNA模型專案聽起來超有趣!利用多尺度變壓器架構來處理基因組數據,真的開創了大型語言模型在新領域的潛力。能在未標註的噬菌體基因組上進行核苷酸級別的預訓練,讓模型學習基因序列中的複雜模式,實在很創新。 你提到的預測重要基因、評估基因變異影響等能力,顯示出這個模型的多功能性,對基因組研究的影響也很大。而且能生成長達96,000個鹼基對的新序列,對合成生物學和噬菌體療法來說,真是令人期待的可能性!希望能看到這個模型與現有基因組模型的比較,以及你在開發過程中的具體方法。 PubMed DOI

為蛋白質準確標註功能和催化活性是一項挑戰,尤其是對於缺乏同源蛋白的情況。傳統方法多依賴蛋白質序列,忽略了標籤的語義。為了解決這個問題,我們提出了FAPM模型,結合了蛋白質序列和自然語言,能生成基因本體(GO)功能術語和催化活性預測。研究顯示,FAPM在理解蛋白質特性上表現優於傳統模型,並在噬菌體蛋白的測試中達到最先進的結果。這種方法為蛋白質註釋提供了新的可能性。線上演示可在此網址找到:https://huggingface.co/spaces/wenkai/FAPM_demo。 PubMed DOI

我們開發了一個自動化工具,利用大型語言模型(LLM)來簡化從超過81,000篇與蛋白質資料庫(PDB)相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰,因為表達條件和純化策略的變化常常耗時。主要發現包括:Tris緩衝液最常用,聚組氨酸標籤佔主導,最佳表達溫度為16-20 °C,誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI