原始文章

這項研究強調微調蛋白質語言模型在各種預測任務中的有效性,顯示針對特定任務的監督式微調能提升表現。研究比較了三個先進模型(ESM2、ProtT5、Ankh)在八個任務上的表現,結果顯示高效的微調能達到類似改善,並顯著減少資源消耗和訓練時間。特別對於數據集有限的任務,如預測單個蛋白質的適應性景觀,微調的做法更具價值。作者還提供了使用者友好的筆記本,方便進行模型微調。 PubMed DOI


站上相關主題文章列表

ProGen是一個深度學習模型,可以像製造句子一樣,生成具有特定功能的蛋白質序列。透過大量蛋白質數據訓練後,ProGen可以微調,提升生成目標蛋白質的能力。這個模型可以創造人工蛋白質,效率與天然蛋白質相當,即使序列不同。適用於不同蛋白質家族,如輔酶A轉移酶和丙酮酸脫氫酶。 PubMed DOI

機器學習在預測蛋白質結構方面取得重大進展,利用演化數據進行序列比對。研究人員透過大型語言模型,能直接從原始序列推斷出蛋白質結構,並擴展至 150 億參數,加速高解析度結構預測。ESM Metagenomic Atlas 建立了超過 6.17 億宏基因組蛋白質序列的預測結構,提供廣泛且多樣的自然蛋白質洞察。 PubMed DOI

像ProGen2和IgLM這樣的大型語言模型正被應用在蛋白工程領域,以更有效地設計蛋白質。 PubMed DOI

最新的語言模型對蛋白質研究有重大影響,特別是GPT-4等模型展現出潛力,可應用在蛋白質領域。蛋白質語言模型已顯示出預測和創新蛋白質的能力,並取得重要進展。本文討論了這個新興領域的機會和挑戰,並提供了LLMs對蛋白質研究的影響。 PubMed DOI

蛋白質語言模型是強大的工具,可預測蛋白質結構、發現新功能性序列,並評估突變影響。研究指出這些模型可預測蛋白質間的相互作用熱點,並與傳統方法媲美。雖然成本效益高,但解釋特定特徵仍具挑戰性。 PubMed DOI

蛋白質在藥物研發中扮演重要角色,但傳統方法太貴又太慢。研究引入了一個快速又精確的分類器,使用了帶有ESM-2嵌入的蛋白質語言模型(PLM),準確率達95.11%。比較結果顯示,ESM-2嵌入比PSSM特徵更優。同時,開發了基於GPT-2的端對端模型,將大型語言模型成功應用在蛋白質辨識上,並經Pharos數據集驗證表現。 PubMed DOI

UniProtKB中有超過2.51億個蛋白質,但只有0.25%有Pfam家族域標註,可能的家族域超過15000個。提出了基於轉移學習的新方法,使用大型語言模型(LLMs)在未標註數據上訓練,再在已標註數據上微調,準確性提高60%。該方法採用先進的LLMs和機器學習技術,程式碼和資料可於GitHub找到。 PubMed DOI

這項研究探討了使用調校過的大型語言模型(LLMs)進行複雜化學文本挖掘任務,並在各種任務中取得了令人印象深刻的表現,僅需少量標註數據。調校過的ChatGPT模型表現優異,超越其他LLMs,展示了它們在化學知識提取的自動化數據獲取方面的潛力。 PubMed DOI

酵素在生物技術中非常重要,應用於食品、洗衣、製藥等領域,因為它們能催化化學反應。酵素的活性受pH值影響,每種酵素在特定pH範圍內表現最佳。為了解決這個挑戰,我們開發了一種基於語言模型的方法,預測酵素序列的最佳pH範圍。透過多種切分策略,我們的機器學習模型在不同蛋白質家族中展現高準確性,能快速識別具有理想pH的酵素,促進高通量探索。 PubMed DOI

這項研究探討基因組語言模型(gLMs)在蛋白質相關任務上的表現,並與蛋白質語言模型(pLMs)進行比較。研究人員整理了五個數據集,將編碼DNA序列(CDS)與蛋白質連結。結果顯示,gLMs在某些任務上表現優於pLMs,特別是使用檢索的CDS時。此外,聯合基因組-蛋白質模型展現了更佳的表現。研究還開發了一種新的核苷酸變壓器模型,使用3mer標記化,表現優於6mer版本。這顯示gLMs在蛋白質組學中的潛力,並建議統一基因組學與蛋白質組學的方法。作者已公開代碼和數據集。 PubMed DOI