原始文章

為蛋白質準確標註功能和催化活性是一項挑戰,尤其是對於缺乏同源蛋白的情況。傳統方法多依賴蛋白質序列,忽略了標籤的語義。為了解決這個問題,我們提出了FAPM模型,結合了蛋白質序列和自然語言,能生成基因本體(GO)功能術語和催化活性預測。研究顯示,FAPM在理解蛋白質特性上表現優於傳統模型,並在噬菌體蛋白的測試中達到最先進的結果。這種方法為蛋白質註釋提供了新的可能性。線上演示可在此網址找到:https://huggingface.co/spaces/wenkai/FAPM_demo。 PubMed DOI


站上相關主題文章列表

蛋白質在生物學中扮演關鍵角色,了解其結構和功能至關重要。多模蛋白質表示學習(MPRL)整合了一級和三級結構,使用不同技術捕捉蛋白質細節,提升了在蛋白質相關任務中的表現。這個框架有助於深入了解蛋白質動態,並支持未來研究。原始碼在https://github.com/HySonLab/Protein_Pretrain。 PubMed DOI

這項研究強調微調蛋白質語言模型在各種預測任務中的有效性,顯示針對特定任務的監督式微調能提升表現。研究比較了三個先進模型(ESM2、ProtT5、Ankh)在八個任務上的表現,結果顯示高效的微調能達到類似改善,並顯著減少資源消耗和訓練時間。特別對於數據集有限的任務,如預測單個蛋白質的適應性景觀,微調的做法更具價值。作者還提供了使用者友好的筆記本,方便進行模型微調。 PubMed DOI

ProtChat是一個創新的AI多代理系統,專門用於蛋白質分析,結合了蛋白質大型語言模型和像GPT-4這樣的技術。它能自動化複雜任務,如預測蛋白質特性和分析蛋白質-藥物相互作用,大幅減少人力需求。即使沒有計算背景的研究人員也能輕鬆使用,提升分析效率。實驗結果顯示,ProtChat能快速且準確地處理蛋白質相關任務,為計算生物學和藥物發現開創新機會。其程式碼和數據已在GitHub上公開,鼓勵更多人探索應用。 PubMed DOI

蛋白質對生物功能至關重要,而可控的蛋白質編輯技術進步讓我們能更深入探索自然系統及開發新藥物。機器學習輔助的蛋白質編輯(MLPE)雖然有潛力,但面臨組合可能性廣泛的挑戰。為此,我們提出了ProtET,透過多模態學習進行高效蛋白質編輯,並在實驗中顯示其在滿足人類期望的屬性上表現優於現有方法,特別是在穩定性方面有顯著改善。ProtET將成為推進人工蛋白質編輯的重要工具,滿足學術及產業需求。 PubMed DOI

深度生成模型越來越常用於從零開始設計功能性蛋白質。雖然3D蛋白質設計是一種方法,但基於序列的生成方法因為擁有大量的蛋白質序列數據和較簡單的訓練需求而更受歡迎。這些模型專注於匹配訓練數據中的蛋白質序列,但不必每個氨基酸都完全一致,因為某些變異不影響功能。 我們提出了一種新訓練方法,優化氨基酸序列和潛在空間中的訓練數據可能性,並在生成抗微生物肽和蘋果酸脫氫酶上測試,結果超越了多種其他深度生成模型,顯示出我們的方法在功能性蛋白質生成上的有效性。 PubMed DOI

蛋白質語言模型(pLMs)正逐漸成為理解蛋白質序列及其功能的重要工具,特別是在預測分子功能方面,如識別結合位點和評估基因變異影響。不過,單靠pLM嵌入在蛋白質結構預測上仍無法與最佳方法相提並論。透過微調這些pLM,可以提升其效率和準確性,尤其在實驗數據不足的情況下。總的來說,pLM為計算生物學與實驗生物學的整合鋪路,預示著蛋白質設計的新時代。 PubMed DOI

這篇評論探討語言模型在蛋白質設計中的應用,將蛋白質視為氨基酸序列,類比於語言模型處理句子中的單詞。文章介紹蛋白質語言模型的基本概念,強調最近的進展,如上下文設計和結構信息整合,並討論目前的限制。此外,評論還建議未來的研究方向,以提升蛋白質語言模型,改善設計結果。 PubMed DOI

這項研究提出了PKAN新架構,結合多模態表徵和語言模型概念,能更準確預測胜肽的活性與功能,表現優於現有方法。PKAN也有助於解析影響胜肽功能的關鍵特徵,推動生物學上胜肽語言模型的發展。 PubMed DOI

這篇研究用先進的蛋白質語言模型ESM2,搭配LoRA微調,準確預測蛋白質磷酸化位點。結合conformer架構和特徵耦合技術,AUC分數創新高(S位點79.5%、T位點76.3%、Y位點71.4%)。作者也提出新的評估方法「線性回歸斷層掃描」,並公開所有資料和程式碼。 PubMed DOI

這篇研究提出 ProtFun 深度學習模型,結合蛋白質語言模型嵌入、家族網路資訊(用圖注意力網路)和蛋白質特徵,來預測蛋白質功能。實驗結果顯示 ProtFun 在標準資料集上表現比現有方法更好,程式碼也已經公開。 PubMed DOI