原始文章

Finenzyme 是一款新型蛋白質語言模型,能針對特定功能產生並預測酵素序列,表現比 ProGen 這類通用模型更好。雖然產生的序列和天然酵素不同,但結構和功能都很接近,讓它在酵素工程等應用上很有潛力。 PubMed DOI


站上相關主題文章列表

這項研究提出了一個新框架,結合大型語言模型(LLMs)和遺傳演算法(GAs),用來優化酶的設計,解決蛋白質序列及功能的複雜挑戰。研究人員透過大量蛋白質序列數據,找出影響酶結構和功能的氨基酸關係,並利用遺傳演算法有效搜尋能提升催化性能的酶序列。測試結果顯示,生成的酶突變體在90%的案例中超越野生型酶,並維持相似的結構特徵,顯示這種方法的有效性,推進了生物催化劑設計的計算方法。 PubMed DOI

深度生成模型越來越常用於從零開始設計功能性蛋白質。雖然3D蛋白質設計是一種方法,但基於序列的生成方法因為擁有大量的蛋白質序列數據和較簡單的訓練需求而更受歡迎。這些模型專注於匹配訓練數據中的蛋白質序列,但不必每個氨基酸都完全一致,因為某些變異不影響功能。 我們提出了一種新訓練方法,優化氨基酸序列和潛在空間中的訓練數據可能性,並在生成抗微生物肽和蘋果酸脫氫酶上測試,結果超越了多種其他深度生成模型,顯示出我們的方法在功能性蛋白質生成上的有效性。 PubMed DOI

蛋白質語言模型(pLMs)正逐漸成為理解蛋白質序列及其功能的重要工具,特別是在預測分子功能方面,如識別結合位點和評估基因變異影響。不過,單靠pLM嵌入在蛋白質結構預測上仍無法與最佳方法相提並論。透過微調這些pLM,可以提升其效率和準確性,尤其在實驗數據不足的情況下。總的來說,pLM為計算生物學與實驗生物學的整合鋪路,預示著蛋白質設計的新時代。 PubMed DOI

這項研究評估了幾種蛋白質大型語言模型(LLMs),如ESM2、ESM1b和ProtBERT,在預測酶功能方面的表現,並與傳統的序列比對方法BLASTp進行比較。雖然BLASTp通常表現較佳,但LLMs,特別是結合全連接神經網絡時,超越了傳統的一熱編碼模型。ESM2被認為是最有效的LLM,尤其在挑戰性註釋任務中表現突出。研究顯示,LLMs雖未達到BLASTp的黃金標準,但在序列同一性低的情況下,能有效預測難以註釋的酶的EC編號,並強調兩者可互補,提升酶的註釋效果。 PubMed DOI

傳統藥物設計又慢又容易失敗,深度學習模型像DrugGPT雖然能產生新分子,但常常沒用。DrugGen是改良版,結合真實資料和優化技術,能產生100%有效分子,預測和多樣性都更好。測試證明它有效,還能幫助藥物再利用和新藥設計,大大提升藥物開發效率。 PubMed DOI

生物合成因為環保又精準,越來越受重視。AI的加入大幅加快了生物合成的設計和優化,尤其在合成路徑規劃和酵素工程上很有幫助。即使資料有限,大型語言模型也展現潛力。不過,AI應用還有不少挑戰,未來在藥物、綠色化學等領域會更普及,但還需要持續研究突破。 PubMed DOI

這篇研究提出 ProtFun 深度學習模型,結合蛋白質語言模型嵌入、家族網路資訊(用圖注意力網路)和蛋白質特徵,來預測蛋白質功能。實驗結果顯示 ProtFun 在標準資料集上表現比現有方法更好,程式碼也已經公開。 PubMed DOI

作者提出一套新方法,結合半監督神經網路(Seq2Fitness)和創新最佳化演算法(BADASS),能更準確預測蛋白質適應度,並有效率產生多樣且高適應度的蛋白質序列。這方法比現有技術更省資源、效果更好,未來也有機會應用在 DNA、RNA 等其他生物序列上。 PubMed DOI

蛋白質語言模型(PLMs)受大型語言模型啟發,已大幅推動蛋白質生物資訊學發展,特別在分類、功能預測和新蛋白質設計上表現亮眼。本章介紹PLMs的發展、主要架構及新趨勢,強調這些技術對解決生物學難題越來越重要。 PubMed DOI

用實驗鑑定蛋白質功能很慢又困難,導致很多蛋白質雖然知道序列和結構,功能還是不清楚。自動化功能預測(AFP)用電腦方法,結合序列、結構等資料來預測功能。本章介紹 TransFun,利用蛋白質語言模型和 AlphaFold 結構,提升預測準確度。程式碼在 https://github.com/jianlin-cheng/TransFun。 PubMed DOI