原始文章

這項研究專注於預測蛋白質表面的疏水性區域,對於蛋白質的相互作用及聚集性疾病非常重要。研究人員使用進化尺度模型(ESM-2),透過高效的微調方法訓練模型,無需大量計算資源。他們在局部和全局層面進行多項任務探索,最終開發出名為PatchProt的模型,能有效預測疏水性區域、二級結構及表面可及性,表現超越現有方法。研究顯示,結合局部任務可提升全局任務的預測準確性,為蛋白質性質預測設立新標準。 PubMed DOI


站上相關主題文章列表

介紹了ProtAgents,一個利用大型語言模型設計新蛋白質的平台。多個人工智慧代理人合作應對複雜任務,擁有多樣能力。透過LLMs驅動的代理人合作,提供多功能蛋白質設計和分析方法。系統可設計新蛋白質、分析結構,並模擬振動頻率。自動化和協同方法可設計具特定機械性能的蛋白質,釋放解決多目標材料問題的潛力,為自主材料發現和設計鋪平道路。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)預測蛋白質相變(PPTs),對於理解與年齡相關的疾病如阿茲海默症非常重要。研究者微調了一個LLM,評估蛋白質序列變異對PPTs的影響,結果顯示該模型的表現超越傳統方法,並結合隨機森林模型提升可解釋性。此外,研究發現阿茲海默症相關蛋白質的聚集增加與基因表達下降有關,暗示可能存在自然防禦機制來對抗該疾病。 PubMed DOI

這項研究強調微調蛋白質語言模型在各種預測任務中的有效性,顯示針對特定任務的監督式微調能提升表現。研究比較了三個先進模型(ESM2、ProtT5、Ankh)在八個任務上的表現,結果顯示高效的微調能達到類似改善,並顯著減少資源消耗和訓練時間。特別對於數據集有限的任務,如預測單個蛋白質的適應性景觀,微調的做法更具價值。作者還提供了使用者友好的筆記本,方便進行模型微調。 PubMed DOI

預測蛋白質-蛋白質相互作用位點對於理解生化過程非常重要,尤其是在病毒與受體蛋白質的互動中,有助於疾病機制和藥物開發。傳統方法面臨處理時間長、成本高和準確性低的挑戰。為了解決這些問題,我們提出了一種新穎的網絡,利用多重信息融合來預測相互作用位點。透過圖卷積網絡、雙向長短期記憶(BiLSTM)和ProtT5模型,我們的模型在多項評估指標上超越現有方法,顯示出其有效性和優越性。 PubMed DOI

這項研究推出了一個名為蛋白質重要性計算器(PIC)的深度學習模型,旨在提升人類必需蛋白質(HEPs)的識別。傳統方法成本高且勞動密集,且多數僅能在細胞系層面預測HEPs,無法適應不同生物背景。PIC透過微調的蛋白質語言模型,能在三個層面(人類、細胞系、小鼠)更準確地預測HEPs,並引入蛋白質重要性分數來量化其必需性。這個分數經過生物分析驗證,顯示在乳腺癌預後生物標記識別上有潛力,並可評估大量人類微蛋白質的必需性,展現其在生物醫學研究中的廣泛應用。 PubMed DOI

深度生成模型越來越常用於從零開始設計功能性蛋白質。雖然3D蛋白質設計是一種方法,但基於序列的生成方法因為擁有大量的蛋白質序列數據和較簡單的訓練需求而更受歡迎。這些模型專注於匹配訓練數據中的蛋白質序列,但不必每個氨基酸都完全一致,因為某些變異不影響功能。 我們提出了一種新訓練方法,優化氨基酸序列和潛在空間中的訓練數據可能性,並在生成抗微生物肽和蘋果酸脫氫酶上測試,結果超越了多種其他深度生成模型,顯示出我們的方法在功能性蛋白質生成上的有效性。 PubMed DOI

這項研究評估了幾種蛋白質大型語言模型(LLMs),如ESM2、ESM1b和ProtBERT,在預測酶功能方面的表現,並與傳統的序列比對方法BLASTp進行比較。雖然BLASTp通常表現較佳,但LLMs,特別是結合全連接神經網絡時,超越了傳統的一熱編碼模型。ESM2被認為是最有效的LLM,尤其在挑戰性註釋任務中表現突出。研究顯示,LLMs雖未達到BLASTp的黃金標準,但在序列同一性低的情況下,能有效預測難以註釋的酶的EC編號,並強調兩者可互補,提升酶的註釋效果。 PubMed DOI

抗微生物肽(AMPs)因其強大的抗微生物能力,正成為對抗抗生素抗藥性的新解決方案。傳統的AMP識別方法耗時且需大量人力,但隨著深度學習的進步,特別是蛋白質語言模型(PLMs),我們開發了PLAPD框架,利用預訓練的ESM2模型進行AMP分類。經過評估,PLAPD在準確率、精確率、特異性等指標上表現優異,顯示其作為高效AMP發現工具的潛力。 PubMed DOI

PSTP 是一款新型工具,能直接從蛋白質序列預測蛋白質相分離,運用先進機器學習技術,對沒註解或人工設計的蛋白質也有好表現。它能細緻到胺基酸層級預測,並連結疾病相關突變。PSTP 操作簡單、運算快,提供網頁和 Python 套件,方便研究蛋白質相分離與疾病關聯。 PubMed DOI

作者提出一套新方法,結合半監督神經網路(Seq2Fitness)和創新最佳化演算法(BADASS),能更準確預測蛋白質適應度,並有效率產生多樣且高適應度的蛋白質序列。這方法比現有技術更省資源、效果更好,未來也有機會應用在 DNA、RNA 等其他生物序列上。 PubMed DOI