原始文章

這段文字介紹了一種新型的DNA序列比對方法,稱為「Embed-Search-Align」(ESA) 框架。它利用無參考DNA嵌入的Transformer模型,生成DNA讀取和參考片段的向量嵌入。ESA的創新包括對比損失自我監督訓練,提升DNA序列的表徵,以及高效的DNA向量儲存,促進全球搜尋。RDE模型在比對250長度的DNA讀取時達到99%準確率,超越傳統方法,顯示出在基因組任務中的穩健性和多樣性。如需更多資訊,請參考提供的連結。 PubMed DOI


站上相關主題文章列表

公開資料庫中註釋蛋白質序列,尤其是病毒蛋白質,挑戰性高。新方法結合大型語言模型(LLMs)和基於嵌入的軟對齊算法,提升註釋效率和可解釋性。這方法在識別和註釋序列方面優於傳統方法,尤其在病毒基因組學中。LLMs有潛力改進蛋白質功能推斷,提供更有效和精確的分子生物學研究方法。 PubMed DOI

基於變壓器的語言模型(LLMs)在分析生物序列數據上表現優異,因為它們能學習複雜關係,類似於處理自然語言的方式。我們的研究聚焦於DNABERT,這是一個專為人類基因組訓練的DNA語言模型,使用重疊的k-mer作為標記。我們開發了一種方法來研究模型的學習過程,並評估其在特定任務中的有效性。結果顯示,雖然重疊k-mer模型在基因組相關任務中表現良好,但在學習較大序列上下文時卻面臨挑戰,這強調了檢視生物LLMs知識表徵的重要性。 PubMed DOI

你的megaDNA模型專案聽起來超有趣!利用多尺度變壓器架構來處理基因組數據,真的開創了大型語言模型在新領域的潛力。能在未標註的噬菌體基因組上進行核苷酸級別的預訓練,讓模型學習基因序列中的複雜模式,實在很創新。 你提到的預測重要基因、評估基因變異影響等能力,顯示出這個模型的多功能性,對基因組研究的影響也很大。而且能生成長達96,000個鹼基對的新序列,對合成生物學和噬菌體療法來說,真是令人期待的可能性!希望能看到這個模型與現有基因組模型的比較,以及你在開發過程中的具體方法。 PubMed DOI

這項研究探討了一種新方法,利用深度學習預測與非編碼單核苷酸多態性(SNPs)相關的分子過程,特別是在全基因組關聯研究中。傳統方法需大量標記DNA序列,但因人類基因組有限,數據可用性受限。為解決此問題,作者提出了一種半監督學習(SSL)方法,利用來自多種哺乳動物基因組的未標記DNA序列,並結合Noisy Student算法來增強預訓練的數據信心。結果顯示,這種方法能顯著提升預測性能,且小型模型的表現可與大型模型相媲美。 PubMed DOI

這項研究提出了一種名為EvoScan的方法,旨在有效探索蛋白質序列與功能之間的關係。透過識別高維序列空間中的關鍵特徵,EvoScan幫助研究人員找到重要的錨點,並可應用於各種生物分子功能。 為了進一步探索序列空間,研究人員開發了深度學習和大型語言模型,能從錨點重建序列空間,預測新穎的高適應性蛋白質序列。這種混合方法EvoAI在抑制蛋白上測試,結果顯示僅82個錨點就能將序列空間壓縮10^48倍,對生物分子設計及自然進化過程提供深入見解。 PubMed DOI

預訓練語言模型對自然語言處理(NLP)影響深遠,現在也啟發了基因組學的相關研究。開發高品質的基因組基礎模型(FMs)成本高且需大量資源,因此本研究提出L2G,透過現有的大型語言模型(LLMs)來應用於基因組任務。L2G運用「跨模態轉移」的概念,並結合神經架構搜索(NAS)及三階段訓練過程。結果顯示,L2G在多項基因組基準測試中表現優於微調的基因組FMs,特別在增強子活性預測方面也有卓越表現,顯示語言模型在基因組學的潛力。 PubMed DOI

這項研究針對醫學文本中的表型資訊進行精確對齊,旨在提升智能醫療應用,如檢索相似病患案例。作者提出了表型語義結構單元(PhenoSSU)及自動提取演算法,並探索多種對齊策略,發現數據驅動的方法效果最佳。基於BERT的模型對短語型PhenoSSU有效,而知識基礎方法則適合邏輯型PhenoSSU。最終開發的PhenoAlign工具在金標準測試集上表現優異,F1分數達0.820,顯示其在病患照護和醫學研究中的潛力。 PubMed DOI

TransHLA是一個創新的工具,能預測人類白血球抗原(HLA)上的表位呈現,克服了傳統工具只針對特定等位基因的限制。它結合了Transformer和殘基CNN架構,並利用ESM2大型語言模型進行序列和結構嵌入,達到高準確率:HLA I類84.72%,HLA II類79.94%,AUC分別為91.95%和88.14%。案例研究顯示,TransHLA在識別免疫原性表位及新表位方面優於現有模型,對疫苗設計和免疫療法有助益。工具及資源可在 https://github.com/SkywalkerLuke/TransHLA 獲得。 PubMed DOI

治療性抗體的開發面臨預測表位的挑戰,這對抗體設計至關重要。本研究提出三種創新方法來預測表位關係: 1. **序列同一性分析**:分析1800萬對抗體,發現CDRH3序列同一性超過70%可可靠指示重疊表位。 2. **對比學習框架**:開發監督式對比微調方法,對抗體語言模型進行調整,達到82.7%準確率,優於傳統模型。 3. **AbLang-PDB模型**:創建通用模型,預測重疊表位抗體,精確度提高五倍。 這些模型為抗體發現提供了有價值的工具,並顯示對比學習的有效性。 PubMed DOI

這項研究評估了不同的大型語言模型(LLM)在生成G-四重螺旋(GQ)全基因組註解的表現,這些結構在基因調控中扮演重要角色。測試的模型包括變壓器、長卷積和狀態空間模型。結果顯示,所有模型表現相似,DNABERT-2和HyenaDNA的F1分數及馬修斯相關係數(MCC)最佳。特別是HyenaDNA在識別遠端增強子和內含子區域的GQ上更有效,且在檢測大型GQ陣列方面表現優異。研究強調不同LLM可互補,建議根據基因組任務選擇模型。相關代碼和數據已在GitHub公開。 PubMed DOI