原始文章

噬菌體是專門感染細菌的病毒,對微生物生態系統非常重要。了解噬菌體的生物學,尤其是其蛋白質功能,對研究至關重要。雖然透過宏基因組測序已發現許多新噬菌體,但因多樣性和註解不足,許多蛋白質功能仍不明確。為此,我們開發了GOPhage工具,利用噬菌體基因組的模組化結構來進行蛋白質註解。GOPhage顯著提高了對分歧蛋白和不常見功能蛋白的註解準確性,並能處理無同源性搜索結果的蛋白質,顯示出其在噬菌體研究中的潛力。 PubMed DOI


站上相關主題文章列表

深度生成模型越來越常用於從零開始設計功能性蛋白質。雖然3D蛋白質設計是一種方法,但基於序列的生成方法因為擁有大量的蛋白質序列數據和較簡單的訓練需求而更受歡迎。這些模型專注於匹配訓練數據中的蛋白質序列,但不必每個氨基酸都完全一致,因為某些變異不影響功能。 我們提出了一種新訓練方法,優化氨基酸序列和潛在空間中的訓練數據可能性,並在生成抗微生物肽和蘋果酸脫氫酶上測試,結果超越了多種其他深度生成模型,顯示出我們的方法在功能性蛋白質生成上的有效性。 PubMed DOI

我們開發了一個自動化工具,利用大型語言模型(LLM)來簡化從超過81,000篇與蛋白質資料庫(PDB)相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰,因為表達條件和純化策略的變化常常耗時。主要發現包括:Tris緩衝液最常用,聚組氨酸標籤佔主導,最佳表達溫度為16-20 °C,誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI

抗微生物肽(AMPs)因其強大的抗微生物能力,正成為對抗抗生素抗藥性的新解決方案。傳統的AMP識別方法耗時且需大量人力,但隨著深度學習的進步,特別是蛋白質語言模型(PLMs),我們開發了PLAPD框架,利用預訓練的ESM2模型進行AMP分類。經過評估,PLAPD在準確率、精確率、特異性等指標上表現優異,顯示其作為高效AMP發現工具的潛力。 PubMed DOI

Ontolomics-P 是一款操作簡單的網頁工具,專門分析蛋白質體學資料。它用 LDA 主題建模、GO 語意相似度和 GPT-4o 再註解,能把複雜的生物功能整理成清楚易懂的主題,還整合 10 種癌症的蛋白質資料,讓分析更全面、結果更好懂,幫助推動蛋白質體學研究。 PubMed DOI

這項研究用先進AI模型分析牙齦卟啉單胞菌的蛋白質序列,成功預測抗生素抗藥性。透過LSTM-attention、ProtBERT等模型,能高準確率辨識抗藥性菌株,有助於追蹤和預防抗藥性問題,對全球抗藥性危機的治療策略很有幫助。 PubMed DOI

VirNucPro 是一個新模型,能更準確辨識宏基因組資料中的短病毒序列。它結合核苷酸和胺基酸資訊,利用六個閱讀框轉譯和大型語言模型來提升特徵萃取,特別在300–500 bp短序列辨識上,比現有方法更優秀,也能偵測長細菌片段裡的溶原噬菌體區域。程式碼已開源於 GitHub。 PubMed DOI

這篇研究提出 ProtFun 深度學習模型,結合蛋白質語言模型嵌入、家族網路資訊(用圖注意力網路)和蛋白質特徵,來預測蛋白質功能。實驗結果顯示 ProtFun 在標準資料集上表現比現有方法更好,程式碼也已經公開。 PubMed DOI

用實驗鑑定蛋白質功能很慢又困難,導致很多蛋白質雖然知道序列和結構,功能還是不清楚。自動化功能預測(AFP)用電腦方法,結合序列、結構等資料來預測功能。本章介紹 TransFun,利用蛋白質語言模型和 AlphaFold 結構,提升預測準確度。程式碼在 https://github.com/jianlin-cheng/TransFun。 PubMed DOI

InterLabelGO+ 是一款在 CAFA5 表現很好的深度學習工具,用來預測蛋白質功能(GO terms)。它用 ESM2 模型抓序列特徵,並考慮 GO terms 間的關聯。這套工具結合深度學習和同源性分析,提升預測準確度。可透過網頁或安裝套件使用,也支援用戶自行用新資料訓練模型。 PubMed DOI

**重點摘要:** 這份調查回顧了目前用來預測蛋白質功能的模型,特別著重於運用自然語言處理(NLP)和大型語言模型(LLMs)來分析蛋白質序列和科學文獻的相關方法。內容強調了近期在自動化蛋白質功能註解(從序列資料和已發表研究中)方面的進展,以及目前仍面臨的挑戰。 PubMed DOI