Improving functional protein generation via foundation model-derived latent space likelihood optimization.
透過基礎模型衍生的潛在空間似然優化來改善功能性蛋白質生成。 bioRxiv 2025-01-20

深度生成模型越來越常用於從零開始設計功能性蛋白質。雖然3D蛋白質設計是一種方法，但基於序列的生成方法因為擁有大量的蛋白質序列數據和較簡單的訓練需求而更受歡迎。這些模型專注於匹配訓練數據中的蛋白質序列，但不必每個氨基酸都完全一致，因為某些變異不影響功能。我們提出了一種新訓練方法，優化氨基酸序列和潛在空間中的訓練數據可能性，並在生成抗微生物肽和蘋果酸脫氫酶上測試，結果超越了多種其他深度生成模型，顯示出我們的方法在功能性蛋白質生成上的有效性。 PubMed DOI

Using Large Language Model to Optimize Protein Purification: Insights from Protein Structure Literature Associated with Protein Data Bank.
利用大型語言模型優化蛋白質純化：來自與蛋白質數據庫相關的蛋白質結構文獻的見解。 Adv Sci (Weinh) 2025-02-20

我們開發了一個自動化工具，利用大型語言模型（LLM）來簡化從超過81,000篇與蛋白質資料庫（PDB）相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰，因為表達條件和純化策略的變化常常耗時。主要發現包括：Tris緩衝液最常用，聚組氨酸標籤佔主導，最佳表達溫度為16-20 °C，誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI

Leveraging protein language models for robust antimicrobial peptide detection.
利用蛋白質語言模型進行穩健的抗微生物肽檢測。 Methods 2025-03-06

抗微生物肽（AMPs）因其強大的抗微生物能力，正成為對抗抗生素抗藥性的新解決方案。傳統的AMP識別方法耗時且需大量人力，但隨著深度學習的進步，特別是蛋白質語言模型（PLMs），我們開發了PLAPD框架，利用預訓練的ESM2模型進行AMP分類。經過評估，PLAPD在準確率、精確率、特異性等指標上表現優異，顯示其作為高效AMP發現工具的潛力。 PubMed DOI

<i>Ontolomics-P</i>: Advancing Proteomics Data Interpretation through GPT-4o Reannotated Topic Ontology and Data-Driven Analysis.
Ontolomics-P：透過GPT-4o重新註解主題本體與數據驅動分析，推進蛋白質體學數據詮釋 Anal Chem 2025-05-06

Ontolomics-P 是一款操作簡單的網頁工具，專門分析蛋白質體學資料。它用 LDA 主題建模、GO 語意相似度和 GPT-4o 再註解，能把複雜的生物功能整理成清楚易懂的主題，還整合 10 種癌症的蛋白質資料，讓分析更全面、結果更好懂，幫助推動蛋白質體學研究。 PubMed DOI

Analyzing and exploring Graph Attention Networks and protein-based language models for predicting Porhyromonas gingivalis resistant efflux protein sequences.
Graph Attention Networks 與蛋白質語言模型於預測 Porphyromonas gingivalis 抗藥性外排蛋白序列之分析與探討 Dent Med Probl 2025-05-15

這項研究用先進AI模型分析牙齦卟啉單胞菌的蛋白質序列，成功預測抗生素抗藥性。透過LSTM-attention、ProtBERT等模型，能高準確率辨識抗藥性菌株，有助於追蹤和預防抗藥性問題，對全球抗藥性危機的治療策略很有幫助。 PubMed DOI

VirNucPro: an identifier for the identification of viral short sequences using six-frame translation and large language models.
VirNucPro：結合六框架轉譯與大型語言模型之病毒短序列辨識工具 Brief Bioinform 2025-05-19

VirNucPro 是一個新模型，能更準確辨識宏基因組資料中的短病毒序列。它結合核苷酸和胺基酸資訊，利用六個閱讀框轉譯和大型語言模型來提升特徵萃取，特別在300–500 bp短序列辨識上，比現有方法更優秀，也能偵測長細菌片段裡的溶原噬菌體區域。程式碼已開源於 GitHub。 PubMed DOI

ProtFun: A Protein Function Prediction Model Using Graph Attention Networks with a Protein Large Language Model.
ProtFun：結合蛋白質大型語言模型與圖注意力網路的蛋白質功能預測模型 bioRxiv 2025-06-04

這篇研究提出 ProtFun 深度學習模型，結合蛋白質語言模型嵌入、家族網路資訊（用圖注意力網路）和蛋白質特徵，來預測蛋白質功能。實驗結果顯示 ProtFun 在標準資料集上表現比現有方法更好，程式碼也已經公開。 PubMed DOI

TransFun: A Tool of Integrating Large Language Models, Transformers, and Equivariant Graph Neural Networks to Predict Protein Function.
TransFun：結合大型語言模型、Transformers 與等變圖神經網路以預測蛋白質功能的工具 Methods Mol Biol 2025-07-02

用實驗鑑定蛋白質功能很慢又困難，導致很多蛋白質雖然知道序列和結構，功能還是不清楚。自動化功能預測（AFP）用電腦方法，結合序列、結構等資料來預測功能。本章介紹 TransFun，利用蛋白質語言模型和 AlphaFold 結構，提升預測準確度。程式碼在 https://github.com/jianlin-cheng/TransFun。 PubMed DOI

Using InterLabelGO+ for Accurate Protein Language Model-Based Function Prediction.
使用 InterLabelGO+ 進行精確的蛋白質語言模型功能預測 Methods Mol Biol 2025-07-02

InterLabelGO+ 是一款在 CAFA5 表現很好的深度學習工具，用來預測蛋白質功能（GO terms）。它用 ESM2 模型抓序列特徵，並考慮 GO terms 間的關聯。這套工具結合深度學習和同源性分析，提升預測準確度。可透過網頁或安裝套件使用，也支援用戶自行用新資料訓練模型。 PubMed DOI

A Survey of Biological Function Prediction Methods with Focus on Natural Language Processing (NLP) and Large Language Models (LLM).
聚焦於自然語言處理（NLP）與大型語言模型（LLM）的生物功能預測方法綜述 Methods Mol Biol 2025-07-02

**重點摘要：** 這份調查回顧了目前用來預測蛋白質功能的模型，特別著重於運用自然語言處理（NLP）和大型語言模型（LLMs）來分析蛋白質序列和科學文獻的相關方法。內容強調了近期在自動化蛋白質功能註解（從序列資料和已發表研究中）方面的進展，以及目前仍面臨的挑戰。 PubMed DOI

原始文章

站上相關主題文章列表