原始文章

PANDA-3D 是一款深度學習工具,專門用來從 AlphaFold 預測的蛋白質結構中推測基因本體 (GO) 術語。它結合了幾何向量感知器圖神經網絡和變壓器解碼器層,進行多標籤分類,表現優於傳統依賴實驗的結構方法,並在使用氨基酸序列的其他先進技術中也具競爭力。AlphaFold DB 擁有超過 2 億個預測的蛋白質結構,PANDA-3D 成為準確註解蛋白質功能的重要資源,並可透過網頁伺服器和資料庫輕鬆訪問。 PubMed DOI


站上相關主題文章列表

ProGen是一個深度學習模型,可以像製造句子一樣,生成具有特定功能的蛋白質序列。透過大量蛋白質數據訓練後,ProGen可以微調,提升生成目標蛋白質的能力。這個模型可以創造人工蛋白質,效率與天然蛋白質相當,即使序列不同。適用於不同蛋白質家族,如輔酶A轉移酶和丙酮酸脫氫酶。 PubMed DOI

機器學習在預測蛋白質結構方面取得重大進展,利用演化數據進行序列比對。研究人員透過大型語言模型,能直接從原始序列推斷出蛋白質結構,並擴展至 150 億參數,加速高解析度結構預測。ESM Metagenomic Atlas 建立了超過 6.17 億宏基因組蛋白質序列的預測結構,提供廣泛且多樣的自然蛋白質洞察。 PubMed DOI

設計新型蛋白質對生物醫學領域至關重要。一種新方法利用統計模型,受自然語言處理啟發,用於設計氨基酸序列。這方法專注於生成蛋白質結構域序列,而非單一蛋白質。通過將問題視為結構域間翻譯,模型可生成配對序列。經評估發現,此方法優於現有策略,並探討了預訓練語言模型和Alphafold 2的應用。更多資訊可於GitHub取得。 PubMed DOI

生物資訊學中,分析蛋白質結構對於尋找藥物、診斷疾病和研究演化至關重要。目前的方法偏向序列,忽略了3D結構。這項研究提出結合3D結構資訊,特別是接觸圖,設計蛋白質在歐幾里得空間的數值嵌入。這些嵌入結合了大型語言模型和傳統技術特徵,在監督式蛋白質分析中表現更好。實驗結果顯示,這種方法在蛋白質功能預測方面優於現有方法。 PubMed DOI

生物學中,了解蛋白質功能很重要,常用Gene Ontology (GO)術語。但GO術語太多,難以理解。為了解決這問題,開發了GO2Sum,利用T5語言模型總結GO術語成易懂描述。研究顯示,GO2Sum比原始T5模型更適合創建UniProt條目的功能、亞基結構和途徑描述。 PubMed DOI

UniProtKB中有超過2.51億個蛋白質,但只有0.25%有Pfam家族域標註,可能的家族域超過15000個。提出了基於轉移學習的新方法,使用大型語言模型(LLMs)在未標註數據上訓練,再在已標註數據上微調,準確性提高60%。該方法採用先進的LLMs和機器學習技術,程式碼和資料可於GitHub找到。 PubMed DOI

研究蛋白質功能對找疾病治療和新藥很重要。GPSFun網站利用深度學習技術,幫助蛋白質功能註釋。它可預測蛋白質結構和功能,如結合位點和亞細胞位置,不需多重對齊或實驗結構,比現有方法更有效。免費使用網址:https://bio-web1.nscc-gz.cn/app/GPSFun。 PubMed DOI

介紹了一個新的蛋白質溶解度預測模型GATSol,利用圖注意力網絡將蛋白質3D結構轉換成蛋白質圖。整合了AlphaFold技術生成的氨基酸距離圖,GATSol在預測溶解度方面表現優異,捕捉了蛋白質的3D特徵,提高了預測準確性。透過預測過程中納入蛋白質序列預測結構的空間特徵,簡化了預測過程。可幫助篩選高溶解度蛋白質,潛在降低實驗成本。源代碼和數據可於https://github.com/binbinbinv/GATSol 取得。 PubMed DOI

人工智慧(AI)和計算生物學的進步,如AlphaFold2和蛋白質語言模型,正在革新對生命的理解。這些在過去十年中發展的技術,正在加速分子和醫學生物學的研究,特別是在蛋白質設計領域。 PubMed DOI

Google DeepMind 最近推出的 AlphaFold 3 是一款突破性的 AI 模型,能在幾秒鐘內準確預測蛋白質結構,速度和準確性都超越了前作 AlphaFold 2。這項技術對藥物發現、疫苗開發等領域影響深遠,能大幅縮短研究時間。AlphaFold 3 採用先進的機器學習技術,提供蛋白質動態和相互作用的深入見解,預示著生物醫學領域將迎來更多創新,最終有助於改善病患護理。 PubMed DOI