原始文章

順式調控元件(CREs)在基因表達調控中扮演重要角色,因為它們會與轉調控因子互動,影響生物體的功能。ENCODE計畫增進了我們對這些元件的了解,而新技術如大規模平行報導測試則提升了檢測能力。隨著多模態功能基因組數據的發展,我們運用深度學習和大型語言模型來分析CRE的核苷酸序列,這讓我們能更準確預測CRE的活性並設計新元件。了解CRE的運作對基因治療、選擇性育種和微生物合成生物學非常重要。 PubMed DOI


站上相關主題文章列表

研究使用XLNET、BERT和DNABERT等自然語言處理模型,成功預測藍綠藻的啟動子,進而合成化合物。開發了TSSNote-CyaPromBERT平台,方便數據提取和預測。研究指出,這些模型對分析DNA序列及辨識新菌株的啟動子區域相當有幫助。 PubMed DOI

建構檔案(CF)標準化分子生物學操作,提升實驗效率。透過Python、Java和JavaScript軟體專案實施。CF促進協作、自動化和重複使用,減少錯誤,並可整合AI(如GPT-4)進行創新自動化策略。挑戰包括令牌限制和生物安全性,但AI可協助實驗設計,提高合成生物學管理效率。 PubMed DOI

基因體研究進步快速,高通量测序技術帶來龐大數據,挑戰傳統方法。深度學習在視覺、語音成功,但在基因體學需超越人智。有效深度學習模型需結合任務知識。本文討論不同模型優勢,應用於基因體學,並探討實際開發考量。深度學習在基因體學應用及挑戰,未來研究方向,合作多樣數據、快速迭代是關鍵。 PubMed DOI

了解分子調控途徑(MRPs)對生物功能很重要,知識圖譜(KGs)有助於分析MRPs。目前從生物醫學文獻中挖掘KGs的工具有限。大型語言模型(LLMs)如GPT-4有潛力解決這挑戰。reguloGPT利用GPT-4進行KG構建,相較現有方法有明顯改進。m<sup>6</sup>A-KG是使用reguloGPT預測構建的,展示了在理解癌症調控機制方面的實用性。 PubMed DOI

腦部海綿狀血管畸形(CCMs)是一種可能增加中風風險的腦部血管問題。遺傳性CCMs涉及三個基因:KRIT1(CCM1)、MGC4607(CCM2)和PDCD10(CCM3)。CCM1和CCM3組成CCM信號複合物(CSC),在基因表達中扮演重要角色。研究發現CCM蛋白質有多個異構型,其中CCM1和CCM2的某些異構型可能是轉錄因子,挑戰了以往對CCM在血管生成中的看法。 PubMed DOI

像ChatGPT這樣的大型語言模型非常厲害,不僅能處理人類語言,還能應用在分析DNA和蛋白質等生物數據上。它們可以辨識生物數據中的複雜規律,成為預測細胞系統的強力工具。這篇文章討論了各種大型語言模型及其在生物學中的應用,特別強調了它們在植物領域的潛力,但在這個領域中的應用仍不太普遍。 PubMed DOI

基因功能像詞語意義一樣,視語境而異。現有基因註解忽略這複雜性。利用自然語言處理技術,或許能更深入了解基因。現代分佈語義學以向量表示詞語,推動語言模型進步。將基因功能視為細胞語境中的分佈,透過大數據學習,或許能有新突破。 PubMed DOI

基因表現控制對細胞功能至關重要,而與年齡相關的基因調控變化可能影響細胞健康。基因調控網絡模型這些相互作用,包括信號傳遞和轉錄因子。技術的進步使得可以從大型數據集中精確推斷這些網絡,有助於理解細胞老化和疾病機制。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

這項研究探討DNA胞嘧啶甲基化在細胞調控中的角色,特別是小鼠和人類胚胎幹細胞中TET和DNMT3基因的敲除突變體。研究有三個主要目標:訓練大型語言模型識別差異甲基化胞嘧啶、檢驗人類和小鼠基因組中DMCs的預測能力,以及評估DNMT3和TET敲除數據的預測效果。研究成功識別出與突變體DMC預測相關的重要基序,增進了對幹細胞DNA甲基化的理解。相關軟體已在GitHub上公開。 PubMed DOI