原始文章

這項研究提出了一種名為EvoScan的方法,旨在有效探索蛋白質序列與功能之間的關係。透過識別高維序列空間中的關鍵特徵,EvoScan幫助研究人員找到重要的錨點,並可應用於各種生物分子功能。 為了進一步探索序列空間,研究人員開發了深度學習和大型語言模型,能從錨點重建序列空間,預測新穎的高適應性蛋白質序列。這種混合方法EvoAI在抑制蛋白上測試,結果顯示僅82個錨點就能將序列空間壓縮10^48倍,對生物分子設計及自然進化過程提供深入見解。 PubMed DOI


站上相關主題文章列表

透過大型語言模型訓練,結合蛋白結構資訊,可以引導蛋白演化,提升功能。這種策略非監督式學習,能夠優化蛋白結構,增強功能。研究已成功應用於提升對抗SARS-CoV-2的抗體效力,改善對病毒變異體的中和和親和力。逆向折疊方法優於其他機器學習引導的進化方式,成功率高,且無需特定訓練數據。 PubMed DOI

蛋白質演化研究發現,自然蛋白偏好於廣泛、平坦的能量極小值空間。統計力學演算法比傳統方法更有效識別高熵谷,這些谷與自然序列相似且穩定。結合機器學習與統計物理學,探索蛋白質序列多樣性景觀。 PubMed DOI

AI技術如GPT-4在生物學領域展現潛力,可生成氨基酸、多肽鏈的3D結構,並分析藥物與靶蛋白的互動。儘管有時會出現錯誤,但AI成功辨識關鍵氨基酸殘基。這研究顯示AI在生物學模擬和分子互動分析上的應用前景。 PubMed DOI

介紹了一種名為EvoScan的方法,可以有效探索蛋白質序列與功能的關係。透過辨識關鍵特徵,EvoAI計算方法能預測適合的蛋白質序列,不需結構資訊。應用在抑制蛋白上,展現壓縮序列空間的能力,為生物設計提供資訊,增進對自然進化的理解。 PubMed DOI

人工智慧(AI)和計算生物學的進步,如AlphaFold2和蛋白質語言模型,正在革新對生命的理解。這些在過去十年中發展的技術,正在加速分子和醫學生物學的研究,特別是在蛋白質設計領域。 PubMed DOI

透過序列數據訓練的語言模型可學習蛋白質設計原則,但蛋白功能受結構影響。結合語言模型與結構資訊,可引導蛋白演化,改良抗SARS-CoV-2抗體,增強對病毒變異的中和能力。整合結構數據有助於找出有效蛋白演化路徑,無需特定訓練。 PubMed DOI

深度生成模型越來越常用於從零開始設計功能性蛋白質。雖然3D蛋白質設計是一種方法,但基於序列的生成方法因為擁有大量的蛋白質序列數據和較簡單的訓練需求而更受歡迎。這些模型專注於匹配訓練數據中的蛋白質序列,但不必每個氨基酸都完全一致,因為某些變異不影響功能。 我們提出了一種新訓練方法,優化氨基酸序列和潛在空間中的訓練數據可能性,並在生成抗微生物肽和蘋果酸脫氫酶上測試,結果超越了多種其他深度生成模型,顯示出我們的方法在功能性蛋白質生成上的有效性。 PubMed DOI

在2021年,AlphaFold 2 在蛋白質摺疊問題上取得重大突破,能準確預測超過兩億種蛋白質的三維結構,為大型語言模型(LLMs)在生命科學的應用鋪路。最近,我們進入一個新階段,這些先進的基礎模型在龐大數據集上預訓練,能處理蛋白質、RNA、DNA等生物分子的結構與相互作用。與傳統模型不同,新的生命大型語言模型(LLLMs)整合了多種分子生物學的知識,例如Evo模型,能預測基因變異對分子結構的影響,甚至生成新的DNA序列。 PubMed DOI

這項研究強調了先進的大型語言模型(LLM),特別是Pro-PRIME模型,在增強結合生長激素的VHH抗體的穩定性方面的成效。考慮到蛋白質常需在極端環境中運作,研究探討了設計更高穩定性和功能性蛋白質的挑戰。經過兩輪設計,成功產生了一種突變抗體,具備更好的熱穩定性、極端pH抵抗力及更強的結合親和力。這是LLM設計的蛋白質產品首次成功應用於大規模生產,顯示其在蛋白質工程上的潛力。 PubMed DOI

蛋白質語言模型(pLMs)正逐漸成為理解蛋白質序列及其功能的重要工具,特別是在預測分子功能方面,如識別結合位點和評估基因變異影響。不過,單靠pLM嵌入在蛋白質結構預測上仍無法與最佳方法相提並論。透過微調這些pLM,可以提升其效率和準確性,尤其在實驗數據不足的情況下。總的來說,pLM為計算生物學與實驗生物學的整合鋪路,預示著蛋白質設計的新時代。 PubMed DOI