原始文章

這項研究介紹了cdsFM,一個大型語言模型,專注於同義密碼子在蛋白質編碼中的角色。與現有模型不同,cdsFM認為同義密碼子的選擇有其調控和功能意義。它包含EnCodon和DeCodon,經過超過5,000種物種的數據預訓練,能學習密碼子與氨基酸的關係。這些模型在多項任務中表現優於現有基因組模型,並能有效預測同義密碼子的選擇對蛋白質表達的影響。研究還發現了多個潛在的致病性密碼子,顯示cdsFM在理解蛋白質合成中的重要性。 PubMed DOI


站上相關主題文章列表

ProGen是一個深度學習模型,可以像製造句子一樣,生成具有特定功能的蛋白質序列。透過大量蛋白質數據訓練後,ProGen可以微調,提升生成目標蛋白質的能力。這個模型可以創造人工蛋白質,效率與天然蛋白質相當,即使序列不同。適用於不同蛋白質家族,如輔酶A轉移酶和丙酮酸脫氫酶。 PubMed DOI

預先訓練的大型語言模型(LLMs)在改善程式碼生成方面取得重大進展,尤其在生物資訊領域。BioCoder基準評估LLMs在生成生物資訊專用程式碼的表現,包括各種生物資訊任務。研究指出,長提示和領域知識對成功表現至關重要,並展示了訓練數據集對模型性能的提升。所有測試資源可在GitHub上找到。 PubMed DOI

mRNA基礎的疫苗和治療越來越受歡迎,正確設計mRNA序列至關重要。CodonBERT是專為mRNA設計的大型語言模型,使用密碼子作為輸入以提升學習效果。經過在超過1000萬個mRNA序列上的訓練,CodonBERT能準確預測各種mRNA特性,在流感疫苗數據集上表現優異,勝過以往方法。 PubMed DOI

在分子生物學中,探索分子間的關聯性至關重要,而大型語言模型(LLMs)的出現大幅推進了這一領域。這些模型在自然語言處理和圖像生成上表現優異,能夠從龐大數據集中捕捉複雜關係,成為基礎模型。 目前的數據集涵蓋RNA、DNA、蛋白質序列及單細胞和空間轉錄組,為模型開發提供了豐富基礎。未來,基礎模型的發展將專注於提升可解釋性、整合多組學數據及增強預測能力,對於改進我們對生物系統的理解及治療策略具有巨大潛力。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

這項研究強調微調蛋白質語言模型在各種預測任務中的有效性,顯示針對特定任務的監督式微調能提升表現。研究比較了三個先進模型(ESM2、ProtT5、Ankh)在八個任務上的表現,結果顯示高效的微調能達到類似改善,並顯著減少資源消耗和訓練時間。特別對於數據集有限的任務,如預測單個蛋白質的適應性景觀,微調的做法更具價值。作者還提供了使用者友好的筆記本,方便進行模型微調。 PubMed DOI

這項研究探討基因組語言模型(gLMs)在蛋白質相關任務上的表現,並與蛋白質語言模型(pLMs)進行比較。研究人員整理了五個數據集,將編碼DNA序列(CDS)與蛋白質連結。結果顯示,gLMs在某些任務上表現優於pLMs,特別是使用檢索的CDS時。此外,聯合基因組-蛋白質模型展現了更佳的表現。研究還開發了一種新的核苷酸變壓器模型,使用3mer標記化,表現優於6mer版本。這顯示gLMs在蛋白質組學中的潛力,並建議統一基因組學與蛋白質組學的方法。作者已公開代碼和數據集。 PubMed DOI

基於變壓器的語言模型(LLMs)在分析生物序列數據上表現優異,因為它們能學習複雜關係,類似於處理自然語言的方式。我們的研究聚焦於DNABERT,這是一個專為人類基因組訓練的DNA語言模型,使用重疊的k-mer作為標記。我們開發了一種方法來研究模型的學習過程,並評估其在特定任務中的有效性。結果顯示,雖然重疊k-mer模型在基因組相關任務中表現良好,但在學習較大序列上下文時卻面臨挑戰,這強調了檢視生物LLMs知識表徵的重要性。 PubMed DOI

這份調查探討基礎模型(FMs)在生物資訊學中的影響,特別是如何克服有限標註數據和數據噪音的挑戰。文章總結了FMs的演變、當前研究狀況及方法,並強調它們在序列分析、結構預測和功能註釋等生物學問題上的應用,與傳統方法進行比較。此外,還討論了FMs面臨的挑戰,如數據噪音、可解釋性和偏見,並提供對性能限制的見解。最後,文章展望了FMs在生物研究中的未來發展方向。 PubMed DOI

你的megaDNA模型專案聽起來超有趣!利用多尺度變壓器架構來處理基因組數據,真的開創了大型語言模型在新領域的潛力。能在未標註的噬菌體基因組上進行核苷酸級別的預訓練,讓模型學習基因序列中的複雜模式,實在很創新。 你提到的預測重要基因、評估基因變異影響等能力,顯示出這個模型的多功能性,對基因組研究的影響也很大。而且能生成長達96,000個鹼基對的新序列,對合成生物學和噬菌體療法來說,真是令人期待的可能性!希望能看到這個模型與現有基因組模型的比較,以及你在開發過程中的具體方法。 PubMed DOI