原始文章

這段文字探討了複雜的深度學習模型在基因組學中的重要性,特別是透過內含子保留來理解基因調控。文中提到兩種大型基因組模型:自我監督的大型語言模型用於DNA序列,以及基於廣泛基因組數據集的監督模型。作者認為這些模型在功能上類似於自然語言處理的基礎模型,能有效編碼染色質狀態,幫助創建準確的基因調控模型。特別是Sei模型在開發可解釋的內含子保留模型方面表現優異,超越了DNABERT-2模型,並揭示了轉錄因子和染色質標記的調控作用。 PubMed DOI


站上相關主題文章列表

這項研究探討微小RNA(miRNA)與信使RNA(mRNA)之間的互動,並強調從PubMed文章中提取這些互動的挑戰。研究人員建立了一個miRNA-mRNA互動語料庫(MMIC),並評估了多種機器學習和大型語言模型的表現。結果顯示,PubMedBERT在精確度和召回率上表現最佳,達到0.783。而Llama-2在零樣本和三樣本實驗中也有不錯的表現,特別是在召回率上優於其他模型,但在精確度上仍需改進。這顯示Llama-2在提取miRNA-mRNA互動方面具有潛力。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

基於變壓器的語言模型(LLMs)在分析生物序列數據上表現優異,因為它們能學習複雜關係,類似於處理自然語言的方式。我們的研究聚焦於DNABERT,這是一個專為人類基因組訓練的DNA語言模型,使用重疊的k-mer作為標記。我們開發了一種方法來研究模型的學習過程,並評估其在特定任務中的有效性。結果顯示,雖然重疊k-mer模型在基因組相關任務中表現良好,但在學習較大序列上下文時卻面臨挑戰,這強調了檢視生物LLMs知識表徵的重要性。 PubMed DOI

這項研究探討了一種新方法,利用深度學習預測與非編碼單核苷酸多態性(SNPs)相關的分子過程,特別是在全基因組關聯研究中。傳統方法需大量標記DNA序列,但因人類基因組有限,數據可用性受限。為解決此問題,作者提出了一種半監督學習(SSL)方法,利用來自多種哺乳動物基因組的未標記DNA序列,並結合Noisy Student算法來增強預訓練的數據信心。結果顯示,這種方法能顯著提升預測性能,且小型模型的表現可與大型模型相媲美。 PubMed DOI

這篇評論探討自然語言處理(NLP)技術,特別是大型語言模型(LLMs)和變壓器架構在分析人類基因組測序數據的應用。文章分析了2021年至2024年4月間的26項研究,顯示NLP技術能顯著改善基因組數據的處理與解釋,協助預測轉錄因子結合位點等任務。評論強調NLP和LLMs在基因組分析中的潛力,對個性化醫療有助益,但也指出需進一步研究以解決現有限制,提升模型的透明度與適用性。 PubMed DOI

預訓練語言模型對自然語言處理(NLP)影響深遠,現在也啟發了基因組學的相關研究。開發高品質的基因組基礎模型(FMs)成本高且需大量資源,因此本研究提出L2G,透過現有的大型語言模型(LLMs)來應用於基因組任務。L2G運用「跨模態轉移」的概念,並結合神經架構搜索(NAS)及三階段訓練過程。結果顯示,L2G在多項基因組基準測試中表現優於微調的基因組FMs,特別在增強子活性預測方面也有卓越表現,顯示語言模型在基因組學的潛力。 PubMed DOI

大型語言模型(LLMs)正在改變生物醫學科學,特別是在理解生物序列方面。基因組語言模型(gLMs)專注於DNA序列,能幫助預測基因組中重要的功能區域、設計新DNA序列,並促進轉移學習。儘管如此,開發有效的gLMs仍面臨挑戰,如數據質量、模型架構及評估指標等。解決這些問題對於gLMs在複雜生物系統中的應用至關重要。 PubMed DOI

你的專案專注於提升大型語言模型(LLMs)在基因組學的表現,特別是透過整合變異註解數據。你成功將1.9億條準確的變異註解整合進GPT-4o,讓使用者能查詢特定基因變異並獲得詳細解釋。雖然微調有助於提升表現,但檢索增強生成(RAG)在數據量和成本效益上更具優勢。這項研究不僅提高了變異解釋的可及性,也為未來基因組學的AI系統發展樹立了榜樣,展現了LLMs的潛力。公開數據集可依需求分享。 PubMed DOI

這篇綜述探討自然語言處理(NLP)技術,特別是大型語言模型(LLMs)和變壓器架構在分析人類基因組測序數據中的應用。文章分析了2021年至2024年4月間的26項研究,顯示NLP技術能顯著提升基因組信息的理解,尤其在預測調控元件方面。雖然這些技術有助於改善基因組數據分析效率及推進個人化醫療,但仍面臨數據可及性和模型透明度等挑戰,需進一步研究以完善應用。總體而言,NLP在基因組測序分析中的重要性日益增加,未來仍有改進空間。 PubMed DOI

這項研究評估了不同的大型語言模型(LLM)在生成G-四重螺旋(GQ)全基因組註解的表現,這些結構在基因調控中扮演重要角色。測試的模型包括變壓器、長卷積和狀態空間模型。結果顯示,所有模型表現相似,DNABERT-2和HyenaDNA的F1分數及馬修斯相關係數(MCC)最佳。特別是HyenaDNA在識別遠端增強子和內含子區域的GQ上更有效,且在檢測大型GQ陣列方面表現優異。研究強調不同LLM可互補,建議根據基因組任務選擇模型。相關代碼和數據已在GitHub公開。 PubMed DOI