原始文章

RNA除了攜帶遺傳資訊,還有許多結構相關的功能。雖然AI和大型語言模型(LLMs)在蛋白質結構預測上很有成效,但目前幾個主流的核酸語言模型(如RNABERT、ERNIE-RNA等)在RNA三維結構預測上表現有限,主要是因為模型設計上還有不少瓶頸。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)正在改變生物醫學科學,特別是在理解生物序列方面。基因組語言模型(gLMs)專注於DNA序列,能幫助預測基因組中重要的功能區域、設計新DNA序列,並促進轉移學習。儘管如此,開發有效的gLMs仍面臨挑戰,如數據質量、模型架構及評估指標等。解決這些問題對於gLMs在複雜生物系統中的應用至關重要。 PubMed DOI

在2021年,AlphaFold 2 在蛋白質摺疊問題上取得重大突破,能準確預測超過兩億種蛋白質的三維結構,為大型語言模型(LLMs)在生命科學的應用鋪路。最近,我們進入一個新階段,這些先進的基礎模型在龐大數據集上預訓練,能處理蛋白質、RNA、DNA等生物分子的結構與相互作用。與傳統模型不同,新的生命大型語言模型(LLLMs)整合了多種分子生物學的知識,例如Evo模型,能預測基因變異對分子結構的影響,甚至生成新的DNA序列。 PubMed DOI

RNA 正在成為新療法的焦點,但找到能與其結合的小分子仍然是一大挑戰。計算模型在預測 RNA 與小分子的互動上顯得尤為重要。最近,針對 RNA 的大型語言模型(LLMs)取得了進展,促使我們開發了 RNABind,這是一個幾何深度學習框架,能根據 RNA 結構識別結合位點。經過實驗,RNABind 的表現超越了現有方法,並為 RNA 相關的藥物發現提供了新的可能性。 PubMed DOI

蛋白質語言模型(pLMs)正逐漸成為理解蛋白質序列及其功能的重要工具,特別是在預測分子功能方面,如識別結合位點和評估基因變異影響。不過,單靠pLM嵌入在蛋白質結構預測上仍無法與最佳方法相提並論。透過微調這些pLM,可以提升其效率和準確性,尤其在實驗數據不足的情況下。總的來說,pLM為計算生物學與實驗生物學的整合鋪路,預示著蛋白質設計的新時代。 PubMed DOI

這項研究評估了不同的大型語言模型(LLM)在生成G-四重螺旋(GQ)全基因組註解的表現,這些結構在基因調控中扮演重要角色。測試的模型包括變壓器、長卷積和狀態空間模型。結果顯示,所有模型表現相似,DNABERT-2和HyenaDNA的F1分數及馬修斯相關係數(MCC)最佳。特別是HyenaDNA在識別遠端增強子和內含子區域的GQ上更有效,且在檢測大型GQ陣列方面表現優異。研究強調不同LLM可互補,建議根據基因組任務選擇模型。相關代碼和數據已在GitHub公開。 PubMed DOI

近年來,受到DNA和蛋白質大型語言模型的啟發,幾個針對RNA的大型語言模型相繼問世。這些RNA-LLMs透過大量RNA數據集自我學習,旨在提升RNA二級結構預測的準確性。然而,針對這項任務的統一評估仍然不足。本研究對多種預訓練RNA-LLMs進行深入比較,評估它們在二級結構預測中的表現。結果顯示,有兩個模型表現優異,並揭示了低同源性情境下的挑戰。此外,研究提供了不同難度的基準數據集和標準化實驗設置,相關代碼和數據可在GitHub上獲得。 PubMed DOI

生命科學文獻量暴增,人工整理越來越吃力。這項研究用大型語言模型(LLMs)自動產生高品質、正確又有參考文獻的非編碼RNA(ncRNA)摘要,大多數都獲得專家好評。總共產出超過4,600篇摘要,已公開在RNAcentral。結果證明,只要設計好提示並自動檢查,現有LLMs就能自動化文獻摘要整理。 PubMed DOI

生命科學文獻量暴增,人工整理越來越困難。本研究證明,只要設計好提示語和檢查流程,大型語言模型就能自動產出高品質、正確引用的非編碼RNA文獻摘要。人工審查也認可這些摘要的品質。這次共產生超過4,600篇摘要,已上架RNAcentral。未來只要做好品質控管,知識庫就能自動化產生文獻摘要。 PubMed DOI

這項研究開發了新型機器學習和深度學習模型,能預測15種人類細胞株中,哪些長鏈非編碼RNA在細胞質比細胞核更豐富。傳統機器學習模型表現比大型語言模型更好,AUC分數約0.71。研究團隊也提供了細胞株專屬的預測工具和網頁伺服器,方便研究人員使用。 PubMed DOI

**重點摘要:** 這份調查回顧了目前用來預測蛋白質功能的模型,特別著重於運用自然語言處理(NLP)和大型語言模型(LLMs)來分析蛋白質序列和科學文獻的相關方法。內容強調了近期在自動化蛋白質功能註解(從序列資料和已發表研究中)方面的進展,以及目前仍面臨的挑戰。 PubMed DOI