原始文章

這項研究介紹了cdsFM,一個大型語言模型,專注於同義密碼子在蛋白質編碼中的角色。與現有模型不同,cdsFM認為同義密碼子的選擇有其調控和功能意義。它包含EnCodon和DeCodon,經過超過5,000種物種的數據預訓練,能學習密碼子與氨基酸的關係。這些模型在多項任務中表現優於現有基因組模型,並能有效預測同義密碼子的選擇對蛋白質表達的影響。研究還發現了多個潛在的致病性密碼子,顯示cdsFM在理解蛋白質合成中的重要性。 PubMed DOI


站上相關主題文章列表

預先訓練的大型語言模型(LLMs)在改善程式碼生成方面取得重大進展,尤其在生物資訊領域。BioCoder基準評估LLMs在生成生物資訊專用程式碼的表現,包括各種生物資訊任務。研究指出,長提示和領域知識對成功表現至關重要,並展示了訓練數據集對模型性能的提升。所有測試資源可在GitHub上找到。 PubMed DOI

mRNA基礎的疫苗和治療越來越受歡迎,正確設計mRNA序列至關重要。CodonBERT是專為mRNA設計的大型語言模型,使用密碼子作為輸入以提升學習效果。經過在超過1000萬個mRNA序列上的訓練,CodonBERT能準確預測各種mRNA特性,在流感疫苗數據集上表現優異,勝過以往方法。 PubMed DOI

在分子生物學中,探索分子間的關聯性至關重要,而大型語言模型(LLMs)的出現大幅推進了這一領域。這些模型在自然語言處理和圖像生成上表現優異,能夠從龐大數據集中捕捉複雜關係,成為基礎模型。 目前的數據集涵蓋RNA、DNA、蛋白質序列及單細胞和空間轉錄組,為模型開發提供了豐富基礎。未來,基礎模型的發展將專注於提升可解釋性、整合多組學數據及增強預測能力,對於改進我們對生物系統的理解及治療策略具有巨大潛力。 PubMed DOI

這項研究強調微調蛋白質語言模型在各種預測任務中的有效性,顯示針對特定任務的監督式微調能提升表現。研究比較了三個先進模型(ESM2、ProtT5、Ankh)在八個任務上的表現,結果顯示高效的微調能達到類似改善,並顯著減少資源消耗和訓練時間。特別對於數據集有限的任務,如預測單個蛋白質的適應性景觀,微調的做法更具價值。作者還提供了使用者友好的筆記本,方便進行模型微調。 PubMed DOI

這項研究探討基因組語言模型(gLMs)在蛋白質相關任務上的表現,並與蛋白質語言模型(pLMs)進行比較。研究人員整理了五個數據集,將編碼DNA序列(CDS)與蛋白質連結。結果顯示,gLMs在某些任務上表現優於pLMs,特別是使用檢索的CDS時。此外,聯合基因組-蛋白質模型展現了更佳的表現。研究還開發了一種新的核苷酸變壓器模型,使用3mer標記化,表現優於6mer版本。這顯示gLMs在蛋白質組學中的潛力,並建議統一基因組學與蛋白質組學的方法。作者已公開代碼和數據集。 PubMed DOI

這份調查探討基礎模型(FMs)在生物資訊學中的影響,特別是如何克服有限標註數據和數據噪音的挑戰。文章總結了FMs的演變、當前研究狀況及方法,並強調它們在序列分析、結構預測和功能註釋等生物學問題上的應用,與傳統方法進行比較。此外,還討論了FMs面臨的挑戰,如數據噪音、可解釋性和偏見,並提供對性能限制的見解。最後,文章展望了FMs在生物研究中的未來發展方向。 PubMed DOI

預訓練語言模型對自然語言處理(NLP)影響深遠,現在也啟發了基因組學的相關研究。開發高品質的基因組基礎模型(FMs)成本高且需大量資源,因此本研究提出L2G,透過現有的大型語言模型(LLMs)來應用於基因組任務。L2G運用「跨模態轉移」的概念,並結合神經架構搜索(NAS)及三階段訓練過程。結果顯示,L2G在多項基因組基準測試中表現優於微調的基因組FMs,特別在增強子活性預測方面也有卓越表現,顯示語言模型在基因組學的潛力。 PubMed DOI

大型語言模型(LLMs)正在改變生物醫學科學,特別是在理解生物序列方面。基因組語言模型(gLMs)專注於DNA序列,能幫助預測基因組中重要的功能區域、設計新DNA序列,並促進轉移學習。儘管如此,開發有效的gLMs仍面臨挑戰,如數據質量、模型架構及評估指標等。解決這些問題對於gLMs在複雜生物系統中的應用至關重要。 PubMed DOI

深度生成模型越來越常用於從零開始設計功能性蛋白質。雖然3D蛋白質設計是一種方法,但基於序列的生成方法因為擁有大量的蛋白質序列數據和較簡單的訓練需求而更受歡迎。這些模型專注於匹配訓練數據中的蛋白質序列,但不必每個氨基酸都完全一致,因為某些變異不影響功能。 我們提出了一種新訓練方法,優化氨基酸序列和潛在空間中的訓練數據可能性,並在生成抗微生物肽和蘋果酸脫氫酶上測試,結果超越了多種其他深度生成模型,顯示出我們的方法在功能性蛋白質生成上的有效性。 PubMed DOI

這篇評論探討語言模型在蛋白質設計中的應用,將蛋白質視為氨基酸序列,類比於語言模型處理句子中的單詞。文章介紹蛋白質語言模型的基本概念,強調最近的進展,如上下文設計和結構信息整合,並討論目前的限制。此外,評論還建議未來的研究方向,以提升蛋白質語言模型,改善設計結果。 PubMed DOI