這項研究提出了一種名為EvoScan的方法,旨在有效探索蛋白質序列與功能之間的關係。透過識別高維序列空間中的關鍵特徵,EvoScan幫助研究人員找到重要的錨點,並可應用於各種生物分子功能。 為了進一步探索序列空間,研究人員開發了深度學習和大型語言模型,能從錨點重建序列空間,預測新穎的高適應性蛋白質序列。這種混合方法EvoAI在抑制蛋白上測試,結果顯示僅82個錨點就能將序列空間壓縮10^48倍,對生物分子設計及自然進化過程提供深入見解。 PubMed DOI ♡
ProGen是一個深度學習模型,可以像製造句子一樣,生成具有特定功能的蛋白質序列。透過大量蛋白質數據訓練後,ProGen可以微調,提升生成目標蛋白質的能力。這個模型可以創造人工蛋白質,效率與天然蛋白質相當,即使序列不同。適用於不同蛋白質家族,如輔酶A轉移酶和丙酮酸脫氫酶。 PubMed DOI
機器學習在預測蛋白質結構方面取得重大進展,利用演化數據進行序列比對。研究人員透過大型語言模型,能直接從原始序列推斷出蛋白質結構,並擴展至 150 億參數,加速高解析度結構預測。ESM Metagenomic Atlas 建立了超過 6.17 億宏基因組蛋白質序列的預測結構,提供廣泛且多樣的自然蛋白質洞察。 PubMed DOI
設計新型蛋白質對生物醫學領域至關重要。一種新方法利用統計模型,受自然語言處理啟發,用於設計氨基酸序列。這方法專注於生成蛋白質結構域序列,而非單一蛋白質。通過將問題視為結構域間翻譯,模型可生成配對序列。經評估發現,此方法優於現有策略,並探討了預訓練語言模型和Alphafold 2的應用。更多資訊可於GitHub取得。 PubMed DOI
近年來,專注於訓練圖像和語言的大型架構有了很大的進展,對電腦視覺和自然語言處理產生了深遠的影響。像ChatGPT和GPT-4等最新語言模型展現出卓越處理人類語言的能力。這些進步也影響了蛋白質研究,推動新方法快速發展,展現出優異表現。部分模型致力於生成未被探索的蛋白質區域序列。本文概述了蛋白質生成模型的應用,包括語言模型用於人工蛋白質設計、非Transformer架構以及應用於定向進化方法。 PubMed DOI
透過大型語言模型訓練,結合蛋白結構資訊,可以引導蛋白演化,提升功能。這種策略非監督式學習,能夠優化蛋白結構,增強功能。研究已成功應用於提升對抗SARS-CoV-2的抗體效力,改善對病毒變異體的中和和親和力。逆向折疊方法優於其他機器學習引導的進化方式,成功率高,且無需特定訓練數據。 PubMed DOI
蛋白質演化研究發現,自然蛋白偏好於廣泛、平坦的能量極小值空間。統計力學演算法比傳統方法更有效識別高熵谷,這些谷與自然序列相似且穩定。結合機器學習與統計物理學,探索蛋白質序列多樣性景觀。 PubMed DOI
AI技術如GPT-4在生物學領域展現潛力,可生成氨基酸、多肽鏈的3D結構,並分析藥物與靶蛋白的互動。儘管有時會出現錯誤,但AI成功辨識關鍵氨基酸殘基。這研究顯示AI在生物學模擬和分子互動分析上的應用前景。 PubMed DOI
介紹了一種名為EvoScan的方法,可以有效探索蛋白質序列與功能的關係。透過辨識關鍵特徵,EvoAI計算方法能預測適合的蛋白質序列,不需結構資訊。應用在抑制蛋白上,展現壓縮序列空間的能力,為生物設計提供資訊,增進對自然進化的理解。 PubMed DOI
人工智慧(AI)和計算生物學的進步,如AlphaFold2和蛋白質語言模型,正在革新對生命的理解。這些在過去十年中發展的技術,正在加速分子和醫學生物學的研究,特別是在蛋白質設計領域。 PubMed DOI
透過序列數據訓練的語言模型可學習蛋白質設計原則,但蛋白功能受結構影響。結合語言模型與結構資訊,可引導蛋白演化,改良抗SARS-CoV-2抗體,增強對病毒變異的中和能力。整合結構數據有助於找出有效蛋白演化路徑,無需特定訓練。 PubMed DOI