原始文章

用實驗鑑定蛋白質功能很慢又困難,導致很多蛋白質雖然知道序列和結構,功能還是不清楚。自動化功能預測(AFP)用電腦方法,結合序列、結構等資料來預測功能。本章介紹 TransFun,利用蛋白質語言模型和 AlphaFold 結構,提升預測準確度。程式碼在 https://github.com/jianlin-cheng/TransFun。 PubMed DOI


站上相關主題文章列表

蛋白質語言模型(pLMs)正逐漸成為理解蛋白質序列及其功能的重要工具,特別是在預測分子功能方面,如識別結合位點和評估基因變異影響。不過,單靠pLM嵌入在蛋白質結構預測上仍無法與最佳方法相提並論。透過微調這些pLM,可以提升其效率和準確性,尤其在實驗數據不足的情況下。總的來說,pLM為計算生物學與實驗生物學的整合鋪路,預示著蛋白質設計的新時代。 PubMed DOI

Finenzyme 是一款新型蛋白質語言模型,能針對特定功能產生並預測酵素序列,表現比 ProGen 這類通用模型更好。雖然產生的序列和天然酵素不同,但結構和功能都很接近,讓它在酵素工程等應用上很有潛力。 PubMed DOI

這篇研究提出 ProtFun 深度學習模型,結合蛋白質語言模型嵌入、家族網路資訊(用圖注意力網路)和蛋白質特徵,來預測蛋白質功能。實驗結果顯示 ProtFun 在標準資料集上表現比現有方法更好,程式碼也已經公開。 PubMed DOI

蛋白質語言模型(PLMs)受大型語言模型啟發,已大幅推動蛋白質生物資訊學發展,特別在分類、功能預測和新蛋白質設計上表現亮眼。本章介紹PLMs的發展、主要架構及新趨勢,強調這些技術對解決生物學難題越來越重要。 PubMed DOI

蛋白質-蛋白質交互作用(PPIs)對疾病研究和藥物開發很重要,但從眾多模擬結構中挑出最準確的很困難。DeepRank-GNN-esm 是一款深度學習工具,結合圖形化方法和蛋白質語言模型,能有效排序並選出最佳PPI模型。詳細教學和工具下載可參考 https://github.com/haddocking/DeepRank-GNN-esm。 PubMed DOI

InterLabelGO+ 是一款在 CAFA5 表現很好的深度學習工具,用來預測蛋白質功能(GO terms)。它用 ESM2 模型抓序列特徵,並考慮 GO terms 間的關聯。這套工具結合深度學習和同源性分析,提升預測準確度。可透過網頁或安裝套件使用,也支援用戶自行用新資料訓練模型。 PubMed DOI

**重點摘要:** 這份調查回顧了目前用來預測蛋白質功能的模型,特別著重於運用自然語言處理(NLP)和大型語言模型(LLMs)來分析蛋白質序列和科學文獻的相關方法。內容強調了近期在自動化蛋白質功能註解(從序列資料和已發表研究中)方面的進展,以及目前仍面臨的挑戰。 PubMed DOI

蛋白質-蛋白質交互作用(PPIs)對生物研究和新藥開發很關鍵。現在大型語言模型(LLMs)已能從蛋白質序列分析PPIs,處理大規模資料也沒問題。不過,還有像運算量大、資料不平衡和多種資料整合等挑戰。未來會持續優化,讓LLMs在生物領域發揮更大作用。 PubMed DOI

本章介紹用蛋白質語言模型(pLMs)預測蛋白質翻譯後修飾(PTM)位點的最新進展,強調pLMs能提升預測準確度。內容也提到微調、多模態整合、新型架構等趨勢,並討論模型可解釋性、現有限制及未來發展方向。 PubMed DOI

Protein2Text 是一款能讀懂蛋白質序列並用文字回答相關問題的多模態大型語言模型。它改良 LLaVA 架構並加入重取樣機制,讓蛋白質序列更適合語言處理。經過 PubMed 資料集訓練,在多項測試中表現優於現有模型。研究也提醒現有評估方式有缺陷,呼籲改進。模型資源已全數開放。 PubMed DOI