原始文章

這項研究探討了一種新方法,利用深度學習預測與非編碼單核苷酸多態性(SNPs)相關的分子過程,特別是在全基因組關聯研究中。傳統方法需大量標記DNA序列,但因人類基因組有限,數據可用性受限。為解決此問題,作者提出了一種半監督學習(SSL)方法,利用來自多種哺乳動物基因組的未標記DNA序列,並結合Noisy Student算法來增強預訓練的數據信心。結果顯示,這種方法能顯著提升預測性能,且小型模型的表現可與大型模型相媲美。 PubMed DOI


站上相關主題文章列表

您的研究揭示了自然語言處理(NLP)技術與生物資訊學的潛在交集,特別是在DNA序列方面。您將DNA視為由四種核苷酸組成的語言,並將NLP模型如BERT和GPT-3應用於基因組學。 專注於人類基因序列使數據集更易管理,且循環神經網絡(RNN)在生成DNA序列上表現優於傳統N-gram方法,顯示複雜模型能更好捕捉生物數據的細微差異。 此外,您對詞彙大小對數據需求的影響進行調查,結果顯示較小的詞彙並不一定減少訓練數據需求。整體而言,您的研究為DNA序列生成建模開啟了新方向,可能促進生物資訊學的進步。 PubMed DOI

CRISPR-Cas 系統徹底改變了合成生物學,使得精確的基因編輯成為可能。研究人員為了提升 sgRNA 活性預測的準確性,開發了深度學習模型,包括卷積神經網絡(CNN)和大型語言模型(LLM)。這些模型使用了針對酵母 *Yarrowia lipolytica* 的篩選數據進行訓練,並評估其預測高低活性 sgRNA 的能力。研究發現,將合成 sgRNA 融入不平衡數據集能顯著提升預測性能,顯示平衡訓練集在準確預測 sgRNA 活性中的重要性。 PubMed DOI

這篇評論探討自然語言處理(NLP)技術,特別是大型語言模型(LLMs)和變壓器架構在分析人類基因組測序數據的應用。文章分析了2021年至2024年4月間的26項研究,顯示NLP技術能顯著改善基因組數據的處理與解釋,協助預測轉錄因子結合位點等任務。評論強調NLP和LLMs在基因組分析中的潛力,對個性化醫療有助益,但也指出需進一步研究以解決現有限制,提升模型的透明度與適用性。 PubMed DOI

預訓練語言模型對自然語言處理(NLP)影響深遠,現在也啟發了基因組學的相關研究。開發高品質的基因組基礎模型(FMs)成本高且需大量資源,因此本研究提出L2G,透過現有的大型語言模型(LLMs)來應用於基因組任務。L2G運用「跨模態轉移」的概念,並結合神經架構搜索(NAS)及三階段訓練過程。結果顯示,L2G在多項基因組基準測試中表現優於微調的基因組FMs,特別在增強子活性預測方面也有卓越表現,顯示語言模型在基因組學的潛力。 PubMed DOI

大型語言模型(LLMs)正在改變生物醫學科學,特別是在理解生物序列方面。基因組語言模型(gLMs)專注於DNA序列,能幫助預測基因組中重要的功能區域、設計新DNA序列,並促進轉移學習。儘管如此,開發有效的gLMs仍面臨挑戰,如數據質量、模型架構及評估指標等。解決這些問題對於gLMs在複雜生物系統中的應用至關重要。 PubMed DOI

這段文字探討了複雜的深度學習模型在基因組學中的重要性,特別是透過內含子保留來理解基因調控。文中提到兩種大型基因組模型:自我監督的大型語言模型用於DNA序列,以及基於廣泛基因組數據集的監督模型。作者認為這些模型在功能上類似於自然語言處理的基礎模型,能有效編碼染色質狀態,幫助創建準確的基因調控模型。特別是Sei模型在開發可解釋的內含子保留模型方面表現優異,超越了DNABERT-2模型,並揭示了轉錄因子和染色質標記的調控作用。 PubMed DOI

藥物重定位有助於加速開發、降低成本及失敗率,但獲取可靠的負面數據仍是挑戰。為了解決這個問題,我們採用了正負標籤學習方法,並利用大型語言模型(GPT-4)分析前列腺癌臨床試驗,成功識別真負樣本,預測準確性顯著提升。透過我們的標記策略,建立了包含80種藥物的數據集,並評估了11,043種藥物的重定位潛力,找出980個前列腺癌治療候選者。這一方法可擴展至其他疾病,為新療法的發現提供更準確的數據支持。 PubMed DOI

這篇綜述探討自然語言處理(NLP)技術,特別是大型語言模型(LLMs)和變壓器架構在分析人類基因組測序數據中的應用。文章分析了2021年至2024年4月間的26項研究,顯示NLP技術能顯著提升基因組信息的理解,尤其在預測調控元件方面。雖然這些技術有助於改善基因組數據分析效率及推進個人化醫療,但仍面臨數據可及性和模型透明度等挑戰,需進一步研究以完善應用。總體而言,NLP在基因組測序分析中的重要性日益增加,未來仍有改進空間。 PubMed DOI

這項研究探討了細菌啟動子預測模型中,因選擇負資料集而產生的偏差,特別是GC含量的差異。研究發現,現有的多物種模型在使用編碼序列(CDS)作為負資料集時,會受到影響。為了解決這個問題,研究引入了合成隨機序列(SRS),模擬實際啟動子的GC含量分佈。結果顯示,使用SRS能減少GC含量的偏差,並提升啟動子預測器的表現,尤其是DNABERT的結果最佳。這強調了GC平衡資料集在不同細菌物種啟動子分類中的重要性。實驗源代碼已上線提供。 PubMed DOI

這項研究評估了不同的大型語言模型(LLM)在生成G-四重螺旋(GQ)全基因組註解的表現,這些結構在基因調控中扮演重要角色。測試的模型包括變壓器、長卷積和狀態空間模型。結果顯示,所有模型表現相似,DNABERT-2和HyenaDNA的F1分數及馬修斯相關係數(MCC)最佳。特別是HyenaDNA在識別遠端增強子和內含子區域的GQ上更有效,且在檢測大型GQ陣列方面表現優異。研究強調不同LLM可互補,建議根據基因組任務選擇模型。相關代碼和數據已在GitHub公開。 PubMed DOI