原始文章

這篇研究用先進的蛋白質語言模型ESM2,搭配LoRA微調,準確預測蛋白質磷酸化位點。結合conformer架構和特徵耦合技術,AUC分數創新高(S位點79.5%、T位點76.3%、Y位點71.4%)。作者也提出新的評估方法「線性回歸斷層掃描」,並公開所有資料和程式碼。 PubMed DOI


站上相關主題文章列表

這項研究顯示大型語言模型(LLMs),特別是GPT-4,在預測抑制劑與MAPK信號通路中激酶的結合親和力上非常有效。GPT-4在預測RAF結合親和力時達到87.31%的準確率,整體任務則為77.00%,明顯優於傳統方法如Autodock Vina等。模型還能識別與結合親和力相關的特徵,並透過分子對接進行驗證。這項研究強調LLMs在分子結合預測中的潛力,對生物研究和藥物開發意義重大。 PubMed DOI

我們開發了一個自動化工具,利用大型語言模型(LLM)來簡化從超過81,000篇與蛋白質資料庫(PDB)相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰,因為表達條件和純化策略的變化常常耗時。主要發現包括:Tris緩衝液最常用,聚組氨酸標籤佔主導,最佳表達溫度為16-20 °C,誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI

這項研究評估了幾種蛋白質大型語言模型(LLMs),如ESM2、ESM1b和ProtBERT,在預測酶功能方面的表現,並與傳統的序列比對方法BLASTp進行比較。雖然BLASTp通常表現較佳,但LLMs,特別是結合全連接神經網絡時,超越了傳統的一熱編碼模型。ESM2被認為是最有效的LLM,尤其在挑戰性註釋任務中表現突出。研究顯示,LLMs雖未達到BLASTp的黃金標準,但在序列同一性低的情況下,能有效預測難以註釋的酶的EC編號,並強調兩者可互補,提升酶的註釋效果。 PubMed DOI

這項研究提出了一種新方法來預測激酶與底物的關係,重點在蛋白質層級的預測,而非特定的磷酸化位點。研究將問題重新定義為蛋白質-蛋白質互作任務,利用ESM-2蛋白質大型語言模型進行編碼,並透過自回歸解碼器進行二元分類。硬負樣本抽樣策略提升了模型辨識正負互作的能力。此外,該模型具備零樣本預測能力,能識別沒有已知底物的激酶,顯示出強大的泛化能力。研究的代碼和數據可在GitHub上找到。 PubMed DOI

PSTP 是一款新型工具,能直接從蛋白質序列預測蛋白質相分離,運用先進機器學習技術,對沒註解或人工設計的蛋白質也有好表現。它能細緻到胺基酸層級預測,並連結疾病相關突變。PSTP 操作簡單、運算快,提供網頁和 Python 套件,方便研究蛋白質相分離與疾病關聯。 PubMed DOI

這項研究開發了 EDS-Kcr 工具,結合蛋白質語言模型和深度學習,能更準確預測蛋白質的 lysine crotonylation(Kcr)位點,表現優於現有方法。EDS-Kcr 支援多種物種,解釋性佳,並提供免費網頁伺服器,方便應用於疾病診斷和藥物開發。 PubMed DOI

這篇研究提出 ProtFun 深度學習模型,結合蛋白質語言模型嵌入、家族網路資訊(用圖注意力網路)和蛋白質特徵,來預測蛋白質功能。實驗結果顯示 ProtFun 在標準資料集上表現比現有方法更好,程式碼也已經公開。 PubMed DOI

蛋白質語言模型(PLMs)受大型語言模型啟發,已大幅推動蛋白質生物資訊學發展,特別在分類、功能預測和新蛋白質設計上表現亮眼。本章介紹PLMs的發展、主要架構及新趨勢,強調這些技術對解決生物學難題越來越重要。 PubMed DOI

用實驗鑑定蛋白質功能很慢又困難,導致很多蛋白質雖然知道序列和結構,功能還是不清楚。自動化功能預測(AFP)用電腦方法,結合序列、結構等資料來預測功能。本章介紹 TransFun,利用蛋白質語言模型和 AlphaFold 結構,提升預測準確度。程式碼在 https://github.com/jianlin-cheng/TransFun。 PubMed DOI

本章介紹用蛋白質語言模型(pLMs)預測蛋白質翻譯後修飾(PTM)位點的最新進展,強調pLMs能提升預測準確度。內容也提到微調、多模態整合、新型架構等趨勢,並討論模型可解釋性、現有限制及未來發展方向。 PubMed DOI