原始文章

這篇研究用先進的蛋白質語言模型ESM2,搭配LoRA微調,準確預測蛋白質磷酸化位點。結合conformer架構和特徵耦合技術,AUC分數創新高(S位點79.5%、T位點76.3%、Y位點71.4%)。作者也提出新的評估方法「線性回歸斷層掃描」,並公開所有資料和程式碼。 PubMed DOI


站上相關主題文章列表

這項研究強調微調蛋白質語言模型在各種預測任務中的有效性,顯示針對特定任務的監督式微調能提升表現。研究比較了三個先進模型(ESM2、ProtT5、Ankh)在八個任務上的表現,結果顯示高效的微調能達到類似改善,並顯著減少資源消耗和訓練時間。特別對於數據集有限的任務,如預測單個蛋白質的適應性景觀,微調的做法更具價值。作者還提供了使用者友好的筆記本,方便進行模型微調。 PubMed DOI

這項研究顯示大型語言模型(LLMs),特別是GPT-4,在預測抑制劑與MAPK信號通路中激酶的結合親和力上非常有效。GPT-4在預測RAF結合親和力時達到87.31%的準確率,整體任務則為77.00%,明顯優於傳統方法如Autodock Vina等。模型還能識別與結合親和力相關的特徵,並透過分子對接進行驗證。這項研究強調LLMs在分子結合預測中的潛力,對生物研究和藥物開發意義重大。 PubMed DOI

為蛋白質準確標註功能和催化活性是一項挑戰,尤其是對於缺乏同源蛋白的情況。傳統方法多依賴蛋白質序列,忽略了標籤的語義。為了解決這個問題,我們提出了FAPM模型,結合了蛋白質序列和自然語言,能生成基因本體(GO)功能術語和催化活性預測。研究顯示,FAPM在理解蛋白質特性上表現優於傳統模型,並在噬菌體蛋白的測試中達到最先進的結果。這種方法為蛋白質註釋提供了新的可能性。線上演示可在此網址找到:https://huggingface.co/spaces/wenkai/FAPM_demo。 PubMed DOI

我們開發了一個自動化工具,利用大型語言模型(LLM)來簡化從超過81,000篇與蛋白質資料庫(PDB)相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰,因為表達條件和純化策略的變化常常耗時。主要發現包括:Tris緩衝液最常用,聚組氨酸標籤佔主導,最佳表達溫度為16-20 °C,誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI

這項研究評估了幾種蛋白質大型語言模型(LLMs),如ESM2、ESM1b和ProtBERT,在預測酶功能方面的表現,並與傳統的序列比對方法BLASTp進行比較。雖然BLASTp通常表現較佳,但LLMs,特別是結合全連接神經網絡時,超越了傳統的一熱編碼模型。ESM2被認為是最有效的LLM,尤其在挑戰性註釋任務中表現突出。研究顯示,LLMs雖未達到BLASTp的黃金標準,但在序列同一性低的情況下,能有效預測難以註釋的酶的EC編號,並強調兩者可互補,提升酶的註釋效果。 PubMed DOI

這項研究提出了一種新方法來預測激酶與底物的關係,重點在蛋白質層級的預測,而非特定的磷酸化位點。研究將問題重新定義為蛋白質-蛋白質互作任務,利用ESM-2蛋白質大型語言模型進行編碼,並透過自回歸解碼器進行二元分類。硬負樣本抽樣策略提升了模型辨識正負互作的能力。此外,該模型具備零樣本預測能力,能識別沒有已知底物的激酶,顯示出強大的泛化能力。研究的代碼和數據可在GitHub上找到。 PubMed DOI

這項研究強調準確識別蛋白質-DNA結合位點的重要性,對理解生物過程和推進藥物發現至關重要。傳統生化方法雖然是金標準,但因耗時耗資而不實用,因此需要高效的計算方法來預測這些位點。 文章將計算方法分為三類:模板檢測、統計機器學習和深度學習,並用136個非冗餘蛋白質的基準評估14個預測模型。結果顯示,深度學習方法,特別是利用預訓練大型語言模型的,準確性最佳。此外,研究還探討了這些預測方法在生物研究和藥物設計中的應用潛力。 PubMed DOI

PSTP 是一款新型工具,能直接從蛋白質序列預測蛋白質相分離,運用先進機器學習技術,對沒註解或人工設計的蛋白質也有好表現。它能細緻到胺基酸層級預測,並連結疾病相關突變。PSTP 操作簡單、運算快,提供網頁和 Python 套件,方便研究蛋白質相分離與疾病關聯。 PubMed DOI

這項研究開發了 EDS-Kcr 工具,結合蛋白質語言模型和深度學習,能更準確預測蛋白質的 lysine crotonylation(Kcr)位點,表現優於現有方法。EDS-Kcr 支援多種物種,解釋性佳,並提供免費網頁伺服器,方便應用於疾病診斷和藥物開發。 PubMed DOI

這篇研究提出 ProtFun 深度學習模型,結合蛋白質語言模型嵌入、家族網路資訊(用圖注意力網路)和蛋白質特徵,來預測蛋白質功能。實驗結果顯示 ProtFun 在標準資料集上表現比現有方法更好,程式碼也已經公開。 PubMed DOI