原始文章

這項研究探討基因組語言模型(gLMs)在蛋白質相關任務上的表現,並與蛋白質語言模型(pLMs)進行比較。研究人員整理了五個數據集,將編碼DNA序列(CDS)與蛋白質連結。結果顯示,gLMs在某些任務上表現優於pLMs,特別是使用檢索的CDS時。此外,聯合基因組-蛋白質模型展現了更佳的表現。研究還開發了一種新的核苷酸變壓器模型,使用3mer標記化,表現優於6mer版本。這顯示gLMs在蛋白質組學中的潛力,並建議統一基因組學與蛋白質組學的方法。作者已公開代碼和數據集。 PubMed DOI


站上相關主題文章列表

研究利用GenSLMs技術,成功辨識及分類新冠病毒變異。透過大型語言模型分析基因組數據,GenSLMs能快速又精確地偵測引起關注的變異。這些模型經過大量數據訓練,在超級電腦和人工智慧加速器上表現優異。這種方法對於了解新冠病毒演變具有重要意義,並有潛力應用在其他生物數據研究上。 PubMed DOI

ProGen是一個深度學習模型,可以像製造句子一樣,生成具有特定功能的蛋白質序列。透過大量蛋白質數據訓練後,ProGen可以微調,提升生成目標蛋白質的能力。這個模型可以創造人工蛋白質,效率與天然蛋白質相當,即使序列不同。適用於不同蛋白質家族,如輔酶A轉移酶和丙酮酸脫氫酶。 PubMed DOI

近年來,專注於訓練圖像和語言的大型架構有了很大的進展,對電腦視覺和自然語言處理產生了深遠的影響。像ChatGPT和GPT-4等最新語言模型展現出卓越處理人類語言的能力。這些進步也影響了蛋白質研究,推動新方法快速發展,展現出優異表現。部分模型致力於生成未被探索的蛋白質區域序列。本文概述了蛋白質生成模型的應用,包括語言模型用於人工蛋白質設計、非Transformer架構以及應用於定向進化方法。 PubMed DOI

最新的語言模型對蛋白質研究有重大影響,特別是GPT-4等模型展現出潛力,可應用在蛋白質領域。蛋白質語言模型已顯示出預測和創新蛋白質的能力,並取得重要進展。本文討論了這個新興領域的機會和挑戰,並提供了LLMs對蛋白質研究的影響。 PubMed DOI

大型語言模型(LLMs)是強大的人工智慧模型,應用在自然語言處理等任務上表現優異。透過深度學習技術,利用龐大數據訓練神經網絡的參數。LLMs在生物資訊領域展現潛力,可能超越語言建模能力。本文討論了知名的LLMs如BERT和GPT在生物資訊中的應用,包括基因組學、轉錄組學、蛋白質組學、藥物發現和單細胞分析,並強調了LLMs在應對生物資訊挑戰上的潛力。 PubMed DOI

GeneGPT是一種新方法,教導大型語言模型利用NCBI網站回答基因組學問題。研究顯示GeneGPT在基準任務中表現優異,得分0.83超越其他模型。研究強調GeneGPT處理多跳問題的能力,並提供改進見解。程式碼和數據可在GitHub找到。 PubMed DOI

UniProtKB中有超過2.51億個蛋白質,但只有0.25%有Pfam家族域標註,可能的家族域超過15000個。提出了基於轉移學習的新方法,使用大型語言模型(LLMs)在未標註數據上訓練,再在已標註數據上微調,準確性提高60%。該方法採用先進的LLMs和機器學習技術,程式碼和資料可於GitHub找到。 PubMed DOI

像ChatGPT這樣的大型語言模型非常厲害,不僅能處理人類語言,還能應用在分析DNA和蛋白質等生物數據上。它們可以辨識生物數據中的複雜規律,成為預測細胞系統的強力工具。這篇文章討論了各種大型語言模型及其在生物學中的應用,特別強調了它們在植物領域的潛力,但在這個領域中的應用仍不太普遍。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

基於變壓器的語言模型(LLMs)在分析生物序列數據上表現優異,因為它們能學習複雜關係,類似於處理自然語言的方式。我們的研究聚焦於DNABERT,這是一個專為人類基因組訓練的DNA語言模型,使用重疊的k-mer作為標記。我們開發了一種方法來研究模型的學習過程,並評估其在特定任務中的有效性。結果顯示,雖然重疊k-mer模型在基因組相關任務中表現良好,但在學習較大序列上下文時卻面臨挑戰,這強調了檢視生物LLMs知識表徵的重要性。 PubMed DOI