原始文章

深度生成模型越來越常用於從零開始設計功能性蛋白質。雖然3D蛋白質設計是一種方法,但基於序列的生成方法因為擁有大量的蛋白質序列數據和較簡單的訓練需求而更受歡迎。這些模型專注於匹配訓練數據中的蛋白質序列,但不必每個氨基酸都完全一致,因為某些變異不影響功能。 我們提出了一種新訓練方法,優化氨基酸序列和潛在空間中的訓練數據可能性,並在生成抗微生物肽和蘋果酸脫氫酶上測試,結果超越了多種其他深度生成模型,顯示出我們的方法在功能性蛋白質生成上的有效性。 PubMed DOI


站上相關主題文章列表

像ProGen2和IgLM這樣的大型語言模型正被應用在蛋白工程領域,以更有效地設計蛋白質。 PubMed DOI

生物資訊學中,分析蛋白質結構對於尋找藥物、診斷疾病和研究演化至關重要。目前的方法偏向序列,忽略了3D結構。這項研究提出結合3D結構資訊,特別是接觸圖,設計蛋白質在歐幾里得空間的數值嵌入。這些嵌入結合了大型語言模型和傳統技術特徵,在監督式蛋白質分析中表現更好。實驗結果顯示,這種方法在蛋白質功能預測方面優於現有方法。 PubMed DOI

蛋白質在藥物研發中扮演重要角色,但傳統方法太貴又太慢。研究引入了一個快速又精確的分類器,使用了帶有ESM-2嵌入的蛋白質語言模型(PLM),準確率達95.11%。比較結果顯示,ESM-2嵌入比PSSM特徵更優。同時,開發了基於GPT-2的端對端模型,將大型語言模型成功應用在蛋白質辨識上,並經Pharos數據集驗證表現。 PubMed DOI

透過序列數據訓練的語言模型可學習蛋白質設計原則,但蛋白功能受結構影響。結合語言模型與結構資訊,可引導蛋白演化,改良抗SARS-CoV-2抗體,增強對病毒變異的中和能力。整合結構數據有助於找出有效蛋白演化路徑,無需特定訓練。 PubMed DOI

這項研究探討了先進計算方法在蛋白質骨架設計與修改上的創新應用,對於蛋白質功能及疾病治療影響重大。研究團隊開發了名為PB-GPT的模型,透過代碼本量化和壓縮字典,將蛋白質骨架結構轉換為獨特編碼格式。該模型在多個數據集上訓練與評估,顯示出生成複雜且真實蛋白質骨架的能力,模仿自然蛋白質結構,顯示大型語言模型在蛋白質結構設計上的潛力。 PubMed DOI

蛋白質對生物功能至關重要,而可控的蛋白質編輯技術進步讓我們能更深入探索自然系統及開發新藥物。機器學習輔助的蛋白質編輯(MLPE)雖然有潛力,但面臨組合可能性廣泛的挑戰。為此,我們提出了ProtET,透過多模態學習進行高效蛋白質編輯,並在實驗中顯示其在滿足人類期望的屬性上表現優於現有方法,特別是在穩定性方面有顯著改善。ProtET將成為推進人工蛋白質編輯的重要工具,滿足學術及產業需求。 PubMed DOI

這項研究強調了先進的大型語言模型(LLM),特別是Pro-PRIME模型,在增強結合生長激素的VHH抗體的穩定性方面的成效。考慮到蛋白質常需在極端環境中運作,研究探討了設計更高穩定性和功能性蛋白質的挑戰。經過兩輪設計,成功產生了一種突變抗體,具備更好的熱穩定性、極端pH抵抗力及更強的結合親和力。這是LLM設計的蛋白質產品首次成功應用於大規模生產,顯示其在蛋白質工程上的潛力。 PubMed DOI

蛋白質語言模型(pLMs)正逐漸成為理解蛋白質序列及其功能的重要工具,特別是在預測分子功能方面,如識別結合位點和評估基因變異影響。不過,單靠pLM嵌入在蛋白質結構預測上仍無法與最佳方法相提並論。透過微調這些pLM,可以提升其效率和準確性,尤其在實驗數據不足的情況下。總的來說,pLM為計算生物學與實驗生物學的整合鋪路,預示著蛋白質設計的新時代。 PubMed DOI

抗微生物肽(AMPs)因其強大的抗微生物能力,正成為對抗抗生素抗藥性的新解決方案。傳統的AMP識別方法耗時且需大量人力,但隨著深度學習的進步,特別是蛋白質語言模型(PLMs),我們開發了PLAPD框架,利用預訓練的ESM2模型進行AMP分類。經過評估,PLAPD在準確率、精確率、特異性等指標上表現優異,顯示其作為高效AMP發現工具的潛力。 PubMed DOI

這篇評論探討語言模型在蛋白質設計中的應用,將蛋白質視為氨基酸序列,類比於語言模型處理句子中的單詞。文章介紹蛋白質語言模型的基本概念,強調最近的進展,如上下文設計和結構信息整合,並討論目前的限制。此外,評論還建議未來的研究方向,以提升蛋白質語言模型,改善設計結果。 PubMed DOI