原始文章

這段文字介紹了一種新型的DNA序列比對方法,稱為「Embed-Search-Align」(ESA) 框架。它利用無參考DNA嵌入的Transformer模型,生成DNA讀取和參考片段的向量嵌入。ESA的創新包括對比損失自我監督訓練,提升DNA序列的表徵,以及高效的DNA向量儲存,促進全球搜尋。RDE模型在比對250長度的DNA讀取時達到99%準確率,超越傳統方法,顯示出在基因組任務中的穩健性和多樣性。如需更多資訊,請參考提供的連結。 PubMed DOI


站上相關主題文章列表

這篇評論探討自然語言處理(NLP)技術,特別是大型語言模型(LLMs)和變壓器架構在分析人類基因組測序數據的應用。文章分析了2021年至2024年4月間的26項研究,顯示NLP技術能顯著改善基因組數據的處理與解釋,協助預測轉錄因子結合位點等任務。評論強調NLP和LLMs在基因組分析中的潛力,對個性化醫療有助益,但也指出需進一步研究以解決現有限制,提升模型的透明度與適用性。 PubMed DOI

大型語言模型(LLMs)正在改變生物醫學科學,特別是在理解生物序列方面。基因組語言模型(gLMs)專注於DNA序列,能幫助預測基因組中重要的功能區域、設計新DNA序列,並促進轉移學習。儘管如此,開發有效的gLMs仍面臨挑戰,如數據質量、模型架構及評估指標等。解決這些問題對於gLMs在複雜生物系統中的應用至關重要。 PubMed DOI

這項研究針對醫學文本中的表型資訊進行精確對齊,旨在提升智能醫療應用,如檢索相似病患案例。作者提出了表型語義結構單元(PhenoSSU)及自動提取演算法,並探索多種對齊策略,發現數據驅動的方法效果最佳。基於BERT的模型對短語型PhenoSSU有效,而知識基礎方法則適合邏輯型PhenoSSU。最終開發的PhenoAlign工具在金標準測試集上表現優異,F1分數達0.820,顯示其在病患照護和醫學研究中的潛力。 PubMed DOI

TransHLA是一個創新的工具,能預測人類白血球抗原(HLA)上的表位呈現,克服了傳統工具只針對特定等位基因的限制。它結合了Transformer和殘基CNN架構,並利用ESM2大型語言模型進行序列和結構嵌入,達到高準確率:HLA I類84.72%,HLA II類79.94%,AUC分別為91.95%和88.14%。案例研究顯示,TransHLA在識別免疫原性表位及新表位方面優於現有模型,對疫苗設計和免疫療法有助益。工具及資源可在 https://github.com/SkywalkerLuke/TransHLA 獲得。 PubMed DOI

基因編輯(GE)是生命科學中的重要工具,但因物種、基因序列及工具不同,編輯某些基因會遇到挑戰。為了提升基因編輯研究的設計,確認文獻中基因編輯的實踐至關重要。基因編輯元數據庫(GEM)提供了有用的資訊,但對特定基因的參與細節仍不足。 本研究開發了一種系統性方法,利用大型語言模型從GEM及相關文獻中提取關鍵資訊,讓基因編輯數據的調查更全面。我們還提出將這些資訊轉換為指標,以優先考慮未來的研究基因。最終的基因編輯資訊和評分系統旨在簡化目標基因的選擇,改善研究設計。欲了解更多,請訪問以下網址:https://github.com/szktkyk/extract_geinfo 和 https://github.com/szktkyk/visualize_geinfo。 PubMed DOI

治療性抗體的開發面臨預測表位的挑戰,這對抗體設計至關重要。本研究提出三種創新方法來預測表位關係: 1. **序列同一性分析**:分析1800萬對抗體,發現CDRH3序列同一性超過70%可可靠指示重疊表位。 2. **對比學習框架**:開發監督式對比微調方法,對抗體語言模型進行調整,達到82.7%準確率,優於傳統模型。 3. **AbLang-PDB模型**:創建通用模型,預測重疊表位抗體,精確度提高五倍。 這些模型為抗體發現提供了有價值的工具,並顯示對比學習的有效性。 PubMed DOI

這項研究提出了FE-WDNA,一種新型的特徵工程方法,專注於全基因組DNA序列,以提升植物表型性狀的預測準確性。傳統方法多依賴單核苷酸多態性(SNPs),常導致遺傳資訊不完整,無法捕捉核苷酸間的關聯。FE-WDNA利用大型語言模型HyenaDNA,對1000個大豆樣本的全基因組數據進行微調,能提取全面的基因組特徵向量,考量核苷酸的上下文及長距離依賴性。研究顯示,這方法在農業性狀預測上相較於傳統SNP方法有顯著改進,並可應用於其他植物及計算育種。 PubMed DOI

這項研究評估了不同的大型語言模型(LLM)在生成G-四重螺旋(GQ)全基因組註解的表現,這些結構在基因調控中扮演重要角色。測試的模型包括變壓器、長卷積和狀態空間模型。結果顯示,所有模型表現相似,DNABERT-2和HyenaDNA的F1分數及馬修斯相關係數(MCC)最佳。特別是HyenaDNA在識別遠端增強子和內含子區域的GQ上更有效,且在檢測大型GQ陣列方面表現優異。研究強調不同LLM可互補,建議根據基因組任務選擇模型。相關代碼和數據已在GitHub公開。 PubMed DOI

這項研究利用先進的transformer模型(DNABERT-2和Nucleotide Transformer),有效區分癌症與非癌症基因突變。團隊結合真實與合成資料訓練,解決資料不平衡問題。結果顯示,這方法在各項指標上都比現有模型更優秀,有助提升基因分析準確度,未來有望推動個人化癌症治療發展。 PubMed DOI

這篇研究發現,結合圖形和3D結構資料的蛋白質幾何深度模型(GDMs)能和大型語言模型(LLMs)更好對齊,且LLMs規模越大效果越好。罕見蛋白質較難對齊,但提升GDM嵌入維度、用兩層投影頭、或針對蛋白質微調LLM都能改善。對齊提升後,下游任務表現更好,也能減少模型產生錯誤資訊。 PubMed DOI