HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution.
HyenaDNA：單核苷酸分辨率的長距離基因組序列建模。 ArXiv 2023-11-21

研究團隊開發了HyenaDNA基因組模型，可處理更長DNA序列並達到單核苷酸解析度。在基因組學表現優異，速度更快、參數更少，並在人類基因組上訓練。這將帶來基因組學研究的新可能性。HyenaDNA程式碼可在GitHub找到。 PubMed DOI

Deep Learning for Genomics: From Early Neural Nets to Modern Large Language Models.
基因組學的深度學習：從早期神經網絡到現代大型語言模型。 Int J Mol Sci 2023-11-22

基因體研究進步快速，高通量测序技術帶來龐大數據，挑戰傳統方法。深度學習在視覺、語音成功，但在基因體學需超越人智。有效深度學習模型需結合任務知識。本文討論不同模型優勢，應用於基因體學，並探討實際開發考量。深度學習在基因體學應用及挑戰，未來研究方向，合作多樣數據、快速迭代是關鍵。 PubMed DOI

Large language models in bioinformatics: applications and perspectives.
生物信息學中的大型語言模型：應用與展望。 ArXiv 2024-02-01

大型語言模型（LLMs）是強大的人工智慧模型，應用在自然語言處理等任務上表現優異。透過深度學習技術，利用龐大數據訓練神經網絡的參數。LLMs在生物資訊領域展現潛力，可能超越語言建模能力。本文討論了知名的LLMs如BERT和GPT在生物資訊中的應用，包括基因組學、轉錄組學、蛋白質組學、藥物發現和單細胞分析，並強調了LLMs在應對生物資訊挑戰上的潛力。 PubMed DOI

BioNexusSentinel: a visual tool for bioregulatory network and cytohistological RNA-seq genetic expression profiling within the context of multicellular simulation research using ChatGPT-augmented software engineering.
BioNexusSentinel：一個在多細胞模擬研究背景下，用於生物調控網絡和細胞組織RNA-seq基因表達分析的視覺工具，並使用ChatGPT增強的軟體工程。 Bioinform Adv 2024-04-05

BioNexusSentinel是一個用於RNA-seq和生物調控網絡探索的軟體平台，整合了視覺工具和Reactome生物模型。它包括基因表達分析器和細胞組織RNA-seq探索器，提高研究生產力，並在網絡建模和生物狀態分析中有應用。該項目在GitHub上可找到。 PubMed DOI

Large language model based framework for automated extraction of genetic interactions from unstructured data.
基於大型語言模型的框架，用於從非結構化數據中自動提取基因相互作用。 PLoS One 2024-05-21

研究生物相互作用對了解複雜生物系統、推動研究和藥物開發至關重要。雖然手動審查是最佳方法，但現在也有自動化工具如GIX框架可協助。GIX簡化了提取過程，提高了準確性，並提供了信心因子。通過評估，GIX優於現有方法，並展現出與手動審查相當的穩定性。此外，GIX還能提供新信息，對大腸桿菌基因回路的推斷有實際應用價值。 PubMed DOI

Large language models in plant biology.
植物生物學中的大型語言模型。 Trends Plant Sci 2024-05-26

像ChatGPT這樣的大型語言模型非常厲害，不僅能處理人類語言，還能應用在分析DNA和蛋白質等生物數據上。它們可以辨識生物數據中的複雜規律，成為預測細胞系統的強力工具。這篇文章討論了各種大型語言模型及其在生物學中的應用，特別強調了它們在植物領域的潛力，但在這個領域中的應用仍不太普遍。 PubMed DOI

Genomic Language Models: Opportunities and Challenges.
基因組語言模型：機會與挑戰。 ArXiv 2024-07-29

大型語言模型（LLMs）正在改變科學界，尤其是生物醫學領域。生物學的重點在於理解生物序列，這與自然語言處理的目標相似。基因組語言模型（gLMs）專門針對DNA序列訓練，能幫助我們更好地理解基因組及DNA元素的互動，進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力，但在創建有效的gLMs時仍面臨挑戰，特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

GENEVIC: GENetic data exploration and visualization via intelli- gent interactive console.
GENEVIC: 透過智能互動控制台進行基因數據探索與可視化。 Bioinformatics 2024-08-08

GENEVIC是一個由人工智慧驅動的聊天框架，旨在簡化基因數據的分析與知識發現。它能自動檢索、分析和可視化基因資訊，協助生物學家。主要功能包括生成蛋白質互作網絡、豐富基因集，並從PubMed和Google Scholar搜尋文獻。試點階段專注於阿茲海默症、精神分裂症及認知相關基因變異，幫助研究人員優先考慮重要變異。這個平台使用簡單，無需專業訓練，並在安全的HIPAA合規環境中運行，且代碼開源，促進基因研究的合作與發展。 PubMed DOI

Are Genomic Language Models All You Need? Exploring Genomic Language Models on Protein Downstream Tasks.
基因語言模型是否足夠？探索基因語言模型在蛋白質下游任務中的應用。 Bioinformatics 2024-08-30

這項研究探討基因組語言模型（gLMs）在蛋白質相關任務上的表現，並與蛋白質語言模型（pLMs）進行比較。研究人員整理了五個數據集，將編碼DNA序列（CDS）與蛋白質連結。結果顯示，gLMs在某些任務上表現優於pLMs，特別是使用檢索的CDS時。此外，聯合基因組-蛋白質模型展現了更佳的表現。研究還開發了一種新的核苷酸變壓器模型，使用3mer標記化，表現優於6mer版本。這顯示gLMs在蛋白質組學中的潛力，並建議統一基因組學與蛋白質組學的方法。作者已公開代碼和數據集。 PubMed DOI

Distinguishing word identity and sequence context in DNA language models.
在 DNA 語言模型中區分詞彙身份和序列上下文。 BMC Bioinformatics 2024-09-13

基於變壓器的語言模型（LLMs）在分析生物序列數據上表現優異，因為它們能學習複雜關係，類似於處理自然語言的方式。我們的研究聚焦於DNABERT，這是一個專為人類基因組訓練的DNA語言模型，使用重疊的k-mer作為標記。我們開發了一種方法來研究模型的學習過程，並評估其在特定任務中的有效性。結果顯示，雖然重疊k-mer模型在基因組相關任務中表現良好，但在學習較大序列上下文時卻面臨挑戰，這強調了檢視生物LLMs知識表徵的重要性。 PubMed DOI

原始文章

站上相關主題文章列表