原始文章

這項研究探討DNA胞嘧啶甲基化在細胞調控中的角色,特別是小鼠和人類胚胎幹細胞中TET和DNMT3基因的敲除突變體。研究有三個主要目標:訓練大型語言模型識別差異甲基化胞嘧啶、檢驗人類和小鼠基因組中DMCs的預測能力,以及評估DNMT3和TET敲除數據的預測效果。研究成功識別出與突變體DMC預測相關的重要基序,增進了對幹細胞DNA甲基化的理解。相關軟體已在GitHub上公開。 PubMed DOI


站上相關主題文章列表

研究使用XLNET、BERT和DNABERT等自然語言處理模型,成功預測藍綠藻的啟動子,進而合成化合物。開發了TSSNote-CyaPromBERT平台,方便數據提取和預測。研究指出,這些模型對分析DNA序列及辨識新菌株的啟動子區域相當有幫助。 PubMed DOI

研究團隊開發了HyenaDNA基因組模型,可處理更長DNA序列並達到單核苷酸解析度。在基因組學表現優異,速度更快、參數更少,並在人類基因組上訓練。這將帶來基因組學研究的新可能性。HyenaDNA程式碼可在GitHub找到。 PubMed DOI

EpiGePT是一個基於Transformer的預訓練語言模型,專門用來預測基因組學中特定上下文的表觀基因組信號和染色質接觸。它考慮了轉錄因子活性和三維基因組相互作用,提高了預測表觀基因組信號的準確性。EpiGePT可以預測長距離相互作用跨不同細胞類型,並且能夠分析基因變異在不同細胞上下文中的影響。這個模型有助於研究基因調控機制,並且可以免費在線進行預測,網址:http://health.tsinghua.edu.cn/epigept/。 PubMed DOI

人工智慧在醫學上有潛力,特別是像Med-PaLM 2這樣的大型語言模型。研究使用老鼠基因數據,成功找出與糖尿病、白內障等相關的基因,還發現了導致聽力喪失的遺傳因素,促使新易感性模型的發展。Med-PaLM 2可分析基因表現型關係,提出新假設,有助於加速基因研究。 PubMed DOI

論文討論了評估化學物質突變原性在藥物開發中的重要性,介紹了MutaPredBERT模型。透過微調BioLinkBERT並運用遷移學習,即使資料有限,該模型也達到高準確度。這方法顯示了利用大型語言模型從科學文本中擷取知識以建立結構化數據庫的有效性。 PubMed DOI

腎臟中染色質的結構對於控制各種過程中的基因表現至關重要。最近的一項研究使用不同技術分析了受糖尿病腎病影響的人類腎臟中的染色質,為我們提供了對表觀遺傳學景觀變化的新見解。 PubMed DOI

腦部海綿狀血管畸形(CCMs)是一種可能增加中風風險的腦部血管問題。遺傳性CCMs涉及三個基因:KRIT1(CCM1)、MGC4607(CCM2)和PDCD10(CCM3)。CCM1和CCM3組成CCM信號複合物(CSC),在基因表達中扮演重要角色。研究發現CCM蛋白質有多個異構型,其中CCM1和CCM2的某些異構型可能是轉錄因子,挑戰了以往對CCM在血管生成中的看法。 PubMed DOI

研究指出,在糖尿病腎病中,DNA甲基化變化會影響腎臟功能,尤其是近曲小管。高甲基化與近曲小管功能相關基因有關,而去甲基化則與氧化壓力相關基因有關。特定基因的甲基化水平與腎功能和纖維化呈現相關。這些變化可能導致近曲小管表現型的改變,進而影響糖尿病腎臟的發炎、纖維化和代謝功能。 PubMed DOI

這項研究介紹了iLLMAC,一個經過指令調整的大型語言模型,專注於利用游離DNA(cfDNA)進行癌症檢測。iLLMAC在1,135名癌症患者和1,106名對照組的血漿cfDNA數據上訓練,癌症診斷的AUROC達0.866,肝細胞癌(HCC)檢測則達0.924。隨著末端動機數量增加,性能提升,使用64個末端動機時,癌症診斷AUROC達0.886,HCC檢測AUROC達0.956。外部測試中,iLLMAC仍表現優異,顯示出基於LLM的指令調整在cfDNA癌症檢測中的潛力。 PubMed DOI

基於變壓器的語言模型(LLMs)在分析生物序列數據上表現優異,因為它們能學習複雜關係,類似於處理自然語言的方式。我們的研究聚焦於DNABERT,這是一個專為人類基因組訓練的DNA語言模型,使用重疊的k-mer作為標記。我們開發了一種方法來研究模型的學習過程,並評估其在特定任務中的有效性。結果顯示,雖然重疊k-mer模型在基因組相關任務中表現良好,但在學習較大序列上下文時卻面臨挑戰,這強調了檢視生物LLMs知識表徵的重要性。 PubMed DOI