Using Large Language Model to Optimize Protein Purification: Insights from Protein Structure Literature Associated with Protein Data Bank.
利用大型語言模型優化蛋白質純化：來自與蛋白質數據庫相關的蛋白質結構文獻的見解。 Adv Sci (Weinh) 2025-02-20

我們開發了一個自動化工具，利用大型語言模型（LLM）來簡化從超過81,000篇與蛋白質資料庫（PDB）相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰，因為表達條件和純化策略的變化常常耗時。主要發現包括：Tris緩衝液最常用，聚組氨酸標籤佔主導，最佳表達溫度為16-20 °C，誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI

Predicting differentially methylated cytosines in TET and DNMT3 knockout mutants via a large language model.
透過大型語言模型預測 TET 和 DNMT3 基因敲除突變體中的差異甲基化胞嘧啶。 Brief Bioinform 2025-03-13

這項研究聚焦於DNA甲基化，這是影響細胞過程的重要表觀遺傳標記。雖然大多數哺乳動物的基因組中，胞嘧啶的甲基化模式相對穩定，但某些調控區域如啟動子和增強子則可能有變化，這些變化由酶DNMT3和TET調控。研究團隊開發了L-MAP，一個基於變壓器的機器學習模型，能根據周圍DNA序列預測差異甲基化的胞嘧啶。經過人類和小鼠胚胎幹細胞的實驗訓練後，L-MAP在預測上表現出高準確性，並揭示了與DNMT3和TET活性相關的序列基序，幫助我們更深入了解幹細胞中的DNA甲基化。該模型已公開供進一步研究使用。 PubMed DOI

PBertKla: a protein large language model for predicting human lysine lactylation sites.
PBertKla：一種用於預測人類賴氨酸乳酸化位點的蛋白質大型語言模型。 BMC Biol 2025-04-06

乳酸化是一種新發現的翻譯後修飾，主要影響賴氨酸殘基，對細胞功能和疾病有重要影響。為了更好地理解乳酸化的生物學角色，我們開發了PBertKla這個預測工具，利用優化的蛋白質語言模型來預測賴氨酸乳酸化位點。實驗結果顯示，PBertKla在獨立驗證數據上達到超過0.880的AUC值，並且在特徵可視化上表現出色，超越其他模型，顯示其有效性和適應性。這項工具對於進一步研究乳酸化及其對健康的影響具有重要意義。 PubMed DOI

A Comprehensive Review of Computational Methods for Protein-DNA Binding Site Prediction.
蛋白質-DNA 結合位點預測的計算方法綜述。 Anal Biochem 2025-04-10

這項研究強調準確識別蛋白質-DNA結合位點的重要性，對理解生物過程和推進藥物發現至關重要。傳統生化方法雖然是金標準，但因耗時耗資而不實用，因此需要高效的計算方法來預測這些位點。文章將計算方法分為三類：模板檢測、統計機器學習和深度學習，並用136個非冗餘蛋白質的基準評估14個預測模型。結果顯示，深度學習方法，特別是利用預訓練大型語言模型的，準確性最佳。此外，研究還探討了這些預測方法在生物研究和藥物設計中的應用潛力。 PubMed DOI

A new strategy for Cas protein recognition based on graph neural networks and SMILES encoding.
基於圖神經網路與SMILES編碼的Cas蛋白識別新策略 Sci Rep 2025-04-30

這項研究用大型語言模型把蛋白質序列轉成SMILES格式，再結合圖神經網路，準確辨識CRISPR-Cas系統裡的Cas1蛋白。新方法比現有工具更準確，還能在大數據中找到新Cas1候選蛋白，展現高穩定性。未來也有機會應用在其他Cas蛋白辨識，證明SMILES編碼在蛋白質分析上很有潛力。 PubMed DOI

PhosF3C: a feature fusion architecture with fine-tuned protein language model and conformer for prediction of general phosphorylation site.
PhosF3C：結合微調蛋白質語言模型與 Conformer 的特徵融合架構，用於預測一般性磷酸化位點 Brief Bioinform 2025-05-27

這篇研究用先進的蛋白質語言模型ESM2，搭配LoRA微調，準確預測蛋白質磷酸化位點。結合conformer架構和特徵耦合技術，AUC分數創新高（S位點79.5%、T位點76.3%、Y位點71.4%）。作者也提出新的評估方法「線性回歸斷層掃描」，並公開所有資料和程式碼。 PubMed DOI

CytoLNCpred-a computational method for predicting cytoplasm associated long non-coding RNAs in 15 cell-lines.
CytoLNCpred—一種用於預測15種細胞株中細胞質相關長鏈非編碼RNA的計算方法 Front Bioinform 2025-06-10

這項研究開發了新型機器學習和深度學習模型，能預測15種人類細胞株中，哪些長鏈非編碼RNA在細胞質比細胞核更豐富。傳統機器學習模型表現比大型語言模型更好，AUC分數約0.71。研究團隊也提供了細胞株專屬的預測工具和網頁伺服器，方便研究人員使用。 PubMed DOI

Using InterLabelGO+ for Accurate Protein Language Model-Based Function Prediction.
使用 InterLabelGO+ 進行精確的蛋白質語言模型功能預測 Methods Mol Biol 2025-07-02

InterLabelGO+ 是一款在 CAFA5 表現很好的深度學習工具，用來預測蛋白質功能（GO terms）。它用 ESM2 模型抓序列特徵，並考慮 GO terms 間的關聯。這套工具結合深度學習和同源性分析，提升預測準確度。可透過網頁或安裝套件使用，也支援用戶自行用新資料訓練模型。 PubMed DOI

Large Context, Deeper Insights: Harnessing Large Language Models for Advancing Protein-Protein Interaction Analysis.
大語言模型於促進蛋白質-蛋白質交互作用分析之應用：大範疇背景，深入洞見 Methods Mol Biol 2025-07-02

蛋白質-蛋白質交互作用（PPIs）對生物研究和新藥開發很關鍵。現在大型語言模型（LLMs）已能從蛋白質序列分析PPIs，處理大規模資料也沒問題。不過，還有像運算量大、資料不平衡和多種資料整合等挑戰。未來會持續優化，讓LLMs在生物領域發揮更大作用。 PubMed DOI

Large Language Model (LLM)-Based Advances in Prediction of Post-translational Modification Sites in Proteins.
基於大型語言模型（LLM）在蛋白質翻譯後修飾位點預測上的新進展 Methods Mol Biol 2025-07-02

本章介紹用蛋白質語言模型（pLMs）預測蛋白質翻譯後修飾（PTM）位點的最新進展，強調pLMs能提升預測準確度。內容也提到微調、多模態整合、新型架構等趨勢，並討論模型可解釋性、現有限制及未來發展方向。 PubMed DOI

原始文章

站上相關主題文章列表