原始文章

這項研究開發了 EDS-Kcr 工具,結合蛋白質語言模型和深度學習,能更準確預測蛋白質的 lysine crotonylation(Kcr)位點,表現優於現有方法。EDS-Kcr 支援多種物種,解釋性佳,並提供免費網頁伺服器,方便應用於疾病診斷和藥物開發。 PubMed DOI


站上相關主題文章列表

我們開發了一個自動化工具,利用大型語言模型(LLM)來簡化從超過81,000篇與蛋白質資料庫(PDB)相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰,因為表達條件和純化策略的變化常常耗時。主要發現包括:Tris緩衝液最常用,聚組氨酸標籤佔主導,最佳表達溫度為16-20 °C,誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI

這項研究聚焦於DNA甲基化,這是影響細胞過程的重要表觀遺傳標記。雖然大多數哺乳動物的基因組中,胞嘧啶的甲基化模式相對穩定,但某些調控區域如啟動子和增強子則可能有變化,這些變化由酶DNMT3和TET調控。研究團隊開發了L-MAP,一個基於變壓器的機器學習模型,能根據周圍DNA序列預測差異甲基化的胞嘧啶。經過人類和小鼠胚胎幹細胞的實驗訓練後,L-MAP在預測上表現出高準確性,並揭示了與DNMT3和TET活性相關的序列基序,幫助我們更深入了解幹細胞中的DNA甲基化。該模型已公開供進一步研究使用。 PubMed DOI

乳酸化是一種新發現的翻譯後修飾,主要影響賴氨酸殘基,對細胞功能和疾病有重要影響。為了更好地理解乳酸化的生物學角色,我們開發了PBertKla這個預測工具,利用優化的蛋白質語言模型來預測賴氨酸乳酸化位點。實驗結果顯示,PBertKla在獨立驗證數據上達到超過0.880的AUC值,並且在特徵可視化上表現出色,超越其他模型,顯示其有效性和適應性。這項工具對於進一步研究乳酸化及其對健康的影響具有重要意義。 PubMed DOI

這項研究強調準確識別蛋白質-DNA結合位點的重要性,對理解生物過程和推進藥物發現至關重要。傳統生化方法雖然是金標準,但因耗時耗資而不實用,因此需要高效的計算方法來預測這些位點。 文章將計算方法分為三類:模板檢測、統計機器學習和深度學習,並用136個非冗餘蛋白質的基準評估14個預測模型。結果顯示,深度學習方法,特別是利用預訓練大型語言模型的,準確性最佳。此外,研究還探討了這些預測方法在生物研究和藥物設計中的應用潛力。 PubMed DOI

這項研究用大型語言模型把蛋白質序列轉成SMILES格式,再結合圖神經網路,準確辨識CRISPR-Cas系統裡的Cas1蛋白。新方法比現有工具更準確,還能在大數據中找到新Cas1候選蛋白,展現高穩定性。未來也有機會應用在其他Cas蛋白辨識,證明SMILES編碼在蛋白質分析上很有潛力。 PubMed DOI

這篇研究用先進的蛋白質語言模型ESM2,搭配LoRA微調,準確預測蛋白質磷酸化位點。結合conformer架構和特徵耦合技術,AUC分數創新高(S位點79.5%、T位點76.3%、Y位點71.4%)。作者也提出新的評估方法「線性回歸斷層掃描」,並公開所有資料和程式碼。 PubMed DOI

這項研究開發了新型機器學習和深度學習模型,能預測15種人類細胞株中,哪些長鏈非編碼RNA在細胞質比細胞核更豐富。傳統機器學習模型表現比大型語言模型更好,AUC分數約0.71。研究團隊也提供了細胞株專屬的預測工具和網頁伺服器,方便研究人員使用。 PubMed DOI

InterLabelGO+ 是一款在 CAFA5 表現很好的深度學習工具,用來預測蛋白質功能(GO terms)。它用 ESM2 模型抓序列特徵,並考慮 GO terms 間的關聯。這套工具結合深度學習和同源性分析,提升預測準確度。可透過網頁或安裝套件使用,也支援用戶自行用新資料訓練模型。 PubMed DOI

蛋白質-蛋白質交互作用(PPIs)對生物研究和新藥開發很關鍵。現在大型語言模型(LLMs)已能從蛋白質序列分析PPIs,處理大規模資料也沒問題。不過,還有像運算量大、資料不平衡和多種資料整合等挑戰。未來會持續優化,讓LLMs在生物領域發揮更大作用。 PubMed DOI

本章介紹用蛋白質語言模型(pLMs)預測蛋白質翻譯後修飾(PTM)位點的最新進展,強調pLMs能提升預測準確度。內容也提到微調、多模態整合、新型架構等趨勢,並討論模型可解釋性、現有限制及未來發展方向。 PubMed DOI