原始文章

這項研究評估了幾種蛋白質大型語言模型(LLMs),如ESM2、ESM1b和ProtBERT,在預測酶功能方面的表現,並與傳統的序列比對方法BLASTp進行比較。雖然BLASTp通常表現較佳,但LLMs,特別是結合全連接神經網絡時,超越了傳統的一熱編碼模型。ESM2被認為是最有效的LLM,尤其在挑戰性註釋任務中表現突出。研究顯示,LLMs雖未達到BLASTp的黃金標準,但在序列同一性低的情況下,能有效預測難以註釋的酶的EC編號,並強調兩者可互補,提升酶的註釋效果。 PubMed DOI


站上相關主題文章列表

研究比較了21個大型語言模型(LLMs)在自動文本挖掘生物途徑的效能,專注於基因調控和KEGG途徑辨識。結果顯示,各模型表現不同,像是ChatGPT-4和Claude-Pro這類基於API的模型表現比開源模型好。LLMs在生物醫學研究中有潛力,可用於基因網絡分析和途徑對應,但因性能不同,選擇適合的模型至關重要。 PubMed DOI

公開資料庫中註釋蛋白質序列,尤其是病毒蛋白質,挑戰性高。新方法結合大型語言模型(LLMs)和基於嵌入的軟對齊算法,提升註釋效率和可解釋性。這方法在識別和註釋序列方面優於傳統方法,尤其在病毒基因組學中。LLMs有潛力改進蛋白質功能推斷,提供更有效和精確的分子生物學研究方法。 PubMed DOI

蛋白質在藥物研發中扮演重要角色,但傳統方法太貴又太慢。研究引入了一個快速又精確的分類器,使用了帶有ESM-2嵌入的蛋白質語言模型(PLM),準確率達95.11%。比較結果顯示,ESM-2嵌入比PSSM特徵更優。同時,開發了基於GPT-2的端對端模型,將大型語言模型成功應用在蛋白質辨識上,並經Pharos數據集驗證表現。 PubMed DOI

UniProtKB中有超過2.51億個蛋白質,但只有0.25%有Pfam家族域標註,可能的家族域超過15000個。提出了基於轉移學習的新方法,使用大型語言模型(LLMs)在未標註數據上訓練,再在已標註數據上微調,準確性提高60%。該方法採用先進的LLMs和機器學習技術,程式碼和資料可於GitHub找到。 PubMed DOI

酶功能對醫學和生物技術至關重要,但現有方法速度慢且解釋不清。ifDEEPre是DEEPre的新版本,利用自導注意力和生物知識快速預測酶功能。ifDEEPre比DEEPre快50倍,且儲存空間需求較少,在酶數據集上表現更好。這個模型準確捕捉複雜蛋白質模式和演化趨勢,可幫助設計新酶。ifDEEPre的網頁伺服器和程式碼對大眾開放使用。 PubMed DOI

酵素在生物技術中非常重要,應用於食品、洗衣、製藥等領域,因為它們能催化化學反應。酵素的活性受pH值影響,每種酵素在特定pH範圍內表現最佳。為了解決這個挑戰,我們開發了一種基於語言模型的方法,預測酵素序列的最佳pH範圍。透過多種切分策略,我們的機器學習模型在不同蛋白質家族中展現高準確性,能快速識別具有理想pH的酵素,促進高通量探索。 PubMed DOI

II類微菌素是一種有潛力的新型抗生素,但目前識別的數量有限。本研究探討利用蛋白質大型語言模型的數值嵌入來檢測細菌基因組中的微菌素,並與傳統的序列比對方法(如BLAST)進行比較。結果顯示,嵌入法在識別已知II類微菌素上更有效,還能發現一些傳統方法忽略的新型微菌素。隨著抗生素抗藥性問題日益嚴重,發現新的抗菌肽至關重要,這項研究為對抗細菌感染提供了新策略。 PubMed DOI

這項研究評估了21個大型語言模型(LLMs)在檢索生物知識的有效性,特別針對基因調控和KEGG途徑。隨著生物文獻的快速增長,傳統手動整理已不再足夠,LLMs成為一個有前景的替代方案。 結果顯示,模型性能差異明顯,GPT-4和Claude-Pro在基因調控關係的F1分數分別為0.4448和0.4386,KEGG途徑的Jaccard指數也表現強勁。相比之下,開源模型表現較差。研究強調選擇合適模型的重要性,並提供了LLMs在生物研究中的應用見解,相關代碼已在GitHub上公開。 PubMed DOI

我們開發了一個自動化工具,利用大型語言模型(LLM)來簡化從超過81,000篇與蛋白質資料庫(PDB)相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰,因為表達條件和純化策略的變化常常耗時。主要發現包括:Tris緩衝液最常用,聚組氨酸標籤佔主導,最佳表達溫度為16-20 °C,誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI

蛋白質語言模型(pLMs)正逐漸成為理解蛋白質序列及其功能的重要工具,特別是在預測分子功能方面,如識別結合位點和評估基因變異影響。不過,單靠pLM嵌入在蛋白質結構預測上仍無法與最佳方法相提並論。透過微調這些pLM,可以提升其效率和準確性,尤其在實驗數據不足的情況下。總的來說,pLM為計算生物學與實驗生物學的整合鋪路,預示著蛋白質設計的新時代。 PubMed DOI