原始文章

1948年,克勞德·香農提出了一個數學框架,利用N-gram分析字母之間的概率關係,生成連貫句子。這種方法廣泛應用於語言處理和基因組學,例如用來判斷作者身份和檢測抄襲。在基因組學中,DNA被視為語言,核苷酸是字母,N-gram則是單詞,這使得物種識別和生物分類成為可能。為了促進這些應用,我介紹了DNAnamer,一個基於N-gram頻率模式的DNA序列監督分類工具。 PubMed DOI


站上相關主題文章列表

研究團隊開發了HyenaDNA基因組模型,可處理更長DNA序列並達到單核苷酸解析度。在基因組學表現優異,速度更快、參數更少,並在人類基因組上訓練。這將帶來基因組學研究的新可能性。HyenaDNA程式碼可在GitHub找到。 PubMed DOI

基因體研究進步快速,高通量测序技術帶來龐大數據,挑戰傳統方法。深度學習在視覺、語音成功,但在基因體學需超越人智。有效深度學習模型需結合任務知識。本文討論不同模型優勢,應用於基因體學,並探討實際開發考量。深度學習在基因體學應用及挑戰,未來研究方向,合作多樣數據、快速迭代是關鍵。 PubMed DOI

大型語言模型(LLMs)是強大的人工智慧模型,應用在自然語言處理等任務上表現優異。透過深度學習技術,利用龐大數據訓練神經網絡的參數。LLMs在生物資訊領域展現潛力,可能超越語言建模能力。本文討論了知名的LLMs如BERT和GPT在生物資訊中的應用,包括基因組學、轉錄組學、蛋白質組學、藥物發現和單細胞分析,並強調了LLMs在應對生物資訊挑戰上的潛力。 PubMed DOI

BioNexusSentinel是一個用於RNA-seq和生物調控網絡探索的軟體平台,整合了視覺工具和Reactome生物模型。它包括基因表達分析器和細胞組織RNA-seq探索器,提高研究生產力,並在網絡建模和生物狀態分析中有應用。該項目在GitHub上可找到。 PubMed DOI

研究生物相互作用對了解複雜生物系統、推動研究和藥物開發至關重要。雖然手動審查是最佳方法,但現在也有自動化工具如GIX框架可協助。GIX簡化了提取過程,提高了準確性,並提供了信心因子。通過評估,GIX優於現有方法,並展現出與手動審查相當的穩定性。此外,GIX還能提供新信息,對大腸桿菌基因回路的推斷有實際應用價值。 PubMed DOI

像ChatGPT這樣的大型語言模型非常厲害,不僅能處理人類語言,還能應用在分析DNA和蛋白質等生物數據上。它們可以辨識生物數據中的複雜規律,成為預測細胞系統的強力工具。這篇文章討論了各種大型語言模型及其在生物學中的應用,特別強調了它們在植物領域的潛力,但在這個領域中的應用仍不太普遍。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

GENEVIC是一個由人工智慧驅動的聊天框架,旨在簡化基因數據的分析與知識發現。它能自動檢索、分析和可視化基因資訊,協助生物學家。主要功能包括生成蛋白質互作網絡、豐富基因集,並從PubMed和Google Scholar搜尋文獻。試點階段專注於阿茲海默症、精神分裂症及認知相關基因變異,幫助研究人員優先考慮重要變異。這個平台使用簡單,無需專業訓練,並在安全的HIPAA合規環境中運行,且代碼開源,促進基因研究的合作與發展。 PubMed DOI

這項研究探討基因組語言模型(gLMs)在蛋白質相關任務上的表現,並與蛋白質語言模型(pLMs)進行比較。研究人員整理了五個數據集,將編碼DNA序列(CDS)與蛋白質連結。結果顯示,gLMs在某些任務上表現優於pLMs,特別是使用檢索的CDS時。此外,聯合基因組-蛋白質模型展現了更佳的表現。研究還開發了一種新的核苷酸變壓器模型,使用3mer標記化,表現優於6mer版本。這顯示gLMs在蛋白質組學中的潛力,並建議統一基因組學與蛋白質組學的方法。作者已公開代碼和數據集。 PubMed DOI

基於變壓器的語言模型(LLMs)在分析生物序列數據上表現優異,因為它們能學習複雜關係,類似於處理自然語言的方式。我們的研究聚焦於DNABERT,這是一個專為人類基因組訓練的DNA語言模型,使用重疊的k-mer作為標記。我們開發了一種方法來研究模型的學習過程,並評估其在特定任務中的有效性。結果顯示,雖然重疊k-mer模型在基因組相關任務中表現良好,但在學習較大序列上下文時卻面臨挑戰,這強調了檢視生物LLMs知識表徵的重要性。 PubMed DOI