原始文章

RNA處理是將DNA遺傳資訊轉化為功能性蛋白質的重要過程,涉及加帽、剪接、聚腺苷酸化等步驟。為了分析RNA及其與RNA結合蛋白的互動,已開發多種生化方法,並結合高通量測序技術。隨著數據增長,計算方法變得關鍵,機器學習和深度學習模型被用來揭示DNA到RNA的轉化規則。本綜述總結了五種重要RNA編碼的生化和計算方法,並探討了挑戰與資源,建議改進相關計算工具。 PubMed DOI


站上相關主題文章列表

這篇迷你評論總結了2021年在阿聯酋杜拜舉行的IEEE BIBM第三屆年度LncRNA研討會的重點。參與者討論了五個關鍵主題: 1. **lncRNA計算分析的挑戰**:強調分析lncRNA數據的複雜性及需先進工具。 2. **lncRNA與癌症**:探討lncRNA在癌症中的角色,作為診斷和治療的潛在標記。 3. **lncRNA與運動**:分享lncRNA對運動表現和恢復的影響。 4. **lncRNA與COVID-19**:討論lncRNA在COVID-19中的作用及其對免疫反應的影響。 5. **lncRNA在人腦活動中的作用**:檢視lncRNA在神經功能和疾病中的潛力。 整體而言,研討會促進了研究人員的交流,探討lncRNA在多種生物學背景下的角色。 PubMed DOI

這篇評論探討自然語言處理(NLP)技術,特別是大型語言模型(LLMs)和變壓器架構在分析人類基因組測序數據的應用。文章分析了2021年至2024年4月間的26項研究,顯示NLP技術能顯著改善基因組數據的處理與解釋,協助預測轉錄因子結合位點等任務。評論強調NLP和LLMs在基因組分析中的潛力,對個性化醫療有助益,但也指出需進一步研究以解決現有限制,提升模型的透明度與適用性。 PubMed DOI

核糖體剖析(Ribo-seq)是一項能深入了解蛋白質合成的技術,但分析過程對於沒有生物資訊背景的人來說相當複雜。基於大型語言模型的聊天機器人,透過自然語言處理,提供了一個解決方案。本篇評論探討了Ribo-seq分析與聊天機器人技術的結合,強調其在數據分析和結果解釋上的潛力。雖然目前尚無實際應用範例,但未來這些技術有望克服分析障礙,推進對基因表達的理解。不過,模型偏見和數據隱私等問題仍需解決。 PubMed DOI

這段文字探討了複雜的深度學習模型在基因組學中的重要性,特別是透過內含子保留來理解基因調控。文中提到兩種大型基因組模型:自我監督的大型語言模型用於DNA序列,以及基於廣泛基因組數據集的監督模型。作者認為這些模型在功能上類似於自然語言處理的基礎模型,能有效編碼染色質狀態,幫助創建準確的基因調控模型。特別是Sei模型在開發可解釋的內含子保留模型方面表現優異,超越了DNABERT-2模型,並揭示了轉錄因子和染色質標記的調控作用。 PubMed DOI

RNA 正在成為新療法的焦點,但找到能與其結合的小分子仍然是一大挑戰。計算模型在預測 RNA 與小分子的互動上顯得尤為重要。最近,針對 RNA 的大型語言模型(LLMs)取得了進展,促使我們開發了 RNABind,這是一個幾何深度學習框架,能根據 RNA 結構識別結合位點。經過實驗,RNABind 的表現超越了現有方法,並為 RNA 相關的藥物發現提供了新的可能性。 PubMed DOI

這篇綜述探討自然語言處理(NLP)技術,特別是大型語言模型(LLMs)和變壓器架構在分析人類基因組測序數據中的應用。文章分析了2021年至2024年4月間的26項研究,顯示NLP技術能顯著提升基因組信息的理解,尤其在預測調控元件方面。雖然這些技術有助於改善基因組數據分析效率及推進個人化醫療,但仍面臨數據可及性和模型透明度等挑戰,需進一步研究以完善應用。總體而言,NLP在基因組測序分析中的重要性日益增加,未來仍有改進空間。 PubMed DOI

單細胞多組學技術,特別是單細胞RNA測序(scRNA-seq),讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞,並利用word2vec技術生成基因的向量表示,我們能夠進行多尺度分析,識別細胞狀態與發展軌跡。這種方法不僅計算效率高,還能在不依賴高效能計算集群的情況下進行分析,成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

下一代生物技術需要有效挖掘高品質基因元件,以應用於合成生物學和生物工程。傳統方法受限於序列同源性和專家知識,無法建立全面的基因元件目錄。為了解決這個問題,我們推出了SYMPLEX,一個利用大型語言模型進行知識提取的基因挖掘平台。 我們用SYMPLEX識別參與mRNA帽結構形成的酶,這是轉錄後修飾的關鍵步驟。結果產生數千個候選酶,並有可追溯的文獻支持。在測試的46個候選者中,有14個在體內顯示有效活性,2個的表現超過目前商業化的牛痘帽結構酶。SYMPLEX為基礎研究提供了強大的工具。 PubMed DOI

這項研究強調準確識別蛋白質-DNA結合位點的重要性,對理解生物過程和推進藥物發現至關重要。傳統生化方法雖然是金標準,但因耗時耗資而不實用,因此需要高效的計算方法來預測這些位點。 文章將計算方法分為三類:模板檢測、統計機器學習和深度學習,並用136個非冗餘蛋白質的基準評估14個預測模型。結果顯示,深度學習方法,特別是利用預訓練大型語言模型的,準確性最佳。此外,研究還探討了這些預測方法在生物研究和藥物設計中的應用潛力。 PubMed DOI

這項研究開發了新型機器學習和深度學習模型,能預測15種人類細胞株中,哪些長鏈非編碼RNA在細胞質比細胞核更豐富。傳統機器學習模型表現比大型語言模型更好,AUC分數約0.71。研究團隊也提供了細胞株專屬的預測工具和網頁伺服器,方便研究人員使用。 PubMed DOI