原始文章

這項研究探討了一種新方法,利用深度學習預測與非編碼單核苷酸多態性(SNPs)相關的分子過程,特別是在全基因組關聯研究中。傳統方法需大量標記DNA序列,但因人類基因組有限,數據可用性受限。為解決此問題,作者提出了一種半監督學習(SSL)方法,利用來自多種哺乳動物基因組的未標記DNA序列,並結合Noisy Student算法來增強預訓練的數據信心。結果顯示,這種方法能顯著提升預測性能,且小型模型的表現可與大型模型相媲美。 PubMed DOI


站上相關主題文章列表

研究使用大型語言模型(LLMs)探討基於知識的基因優先順序和選擇,專注於與紅血球特徵相關的血液轉錄模組。結果顯示,OpenAI的GPT-4和Anthropic的Claude在LLMs中表現最佳。研究找出了模組M9.2的頂尖基因候選者,顯示LLMs在基因選擇上的潛力,有助於提升生物醫學知識的應用價值。 PubMed DOI

基因體研究進步快速,高通量测序技術帶來龐大數據,挑戰傳統方法。深度學習在視覺、語音成功,但在基因體學需超越人智。有效深度學習模型需結合任務知識。本文討論不同模型優勢,應用於基因體學,並探討實際開發考量。深度學習在基因體學應用及挑戰,未來研究方向,合作多樣數據、快速迭代是關鍵。 PubMed DOI

DNA的彎曲對生物過程很重要,新技術「loop-seq」可測DNA迴圈速率。大規模量化DNA彎曲費時昂貴,MIXBend模型可預測DNA彎曲性,結合語言模型和神經網路,優於其他方法,可辨識DNA基序。MIXBend也揭示人類基因組特定區域的彎曲變異。 PubMed DOI

公開資料庫中註釋蛋白質序列,尤其是病毒蛋白質,挑戰性高。新方法結合大型語言模型(LLMs)和基於嵌入的軟對齊算法,提升註釋效率和可解釋性。這方法在識別和註釋序列方面優於傳統方法,尤其在病毒基因組學中。LLMs有潛力改進蛋白質功能推斷,提供更有效和精確的分子生物學研究方法。 PubMed DOI

這項研究探討微小RNA(miRNA)與信使RNA(mRNA)之間的互動,並強調從PubMed文章中提取這些互動的挑戰。研究人員建立了一個miRNA-mRNA互動語料庫(MMIC),並評估了多種機器學習和大型語言模型的表現。結果顯示,PubMedBERT在精確度和召回率上表現最佳,達到0.783。而Llama-2在零樣本和三樣本實驗中也有不錯的表現,特別是在召回率上優於其他模型,但在精確度上仍需改進。這顯示Llama-2在提取miRNA-mRNA互動方面具有潛力。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

基於變壓器的語言模型(LLMs)在分析生物序列數據上表現優異,因為它們能學習複雜關係,類似於處理自然語言的方式。我們的研究聚焦於DNABERT,這是一個專為人類基因組訓練的DNA語言模型,使用重疊的k-mer作為標記。我們開發了一種方法來研究模型的學習過程,並評估其在特定任務中的有效性。結果顯示,雖然重疊k-mer模型在基因組相關任務中表現良好,但在學習較大序列上下文時卻面臨挑戰,這強調了檢視生物LLMs知識表徵的重要性。 PubMed DOI

您的研究揭示了自然語言處理(NLP)技術與生物資訊學的潛在交集,特別是在DNA序列方面。您將DNA視為由四種核苷酸組成的語言,並將NLP模型如BERT和GPT-3應用於基因組學。 專注於人類基因序列使數據集更易管理,且循環神經網絡(RNN)在生成DNA序列上表現優於傳統N-gram方法,顯示複雜模型能更好捕捉生物數據的細微差異。 此外,您對詞彙大小對數據需求的影響進行調查,結果顯示較小的詞彙並不一定減少訓練數據需求。整體而言,您的研究為DNA序列生成建模開啟了新方向,可能促進生物資訊學的進步。 PubMed DOI

這項研究評估了21個大型語言模型(LLMs)在檢索生物知識的有效性,特別針對基因調控和KEGG途徑。隨著生物文獻的快速增長,傳統手動整理已不再足夠,LLMs成為一個有前景的替代方案。 結果顯示,模型性能差異明顯,GPT-4和Claude-Pro在基因調控關係的F1分數分別為0.4448和0.4386,KEGG途徑的Jaccard指數也表現強勁。相比之下,開源模型表現較差。研究強調選擇合適模型的重要性,並提供了LLMs在生物研究中的應用見解,相關代碼已在GitHub上公開。 PubMed DOI

CRISPR-Cas 系統徹底改變了合成生物學,使得精確的基因編輯成為可能。研究人員為了提升 sgRNA 活性預測的準確性,開發了深度學習模型,包括卷積神經網絡(CNN)和大型語言模型(LLM)。這些模型使用了針對酵母 *Yarrowia lipolytica* 的篩選數據進行訓練,並評估其預測高低活性 sgRNA 的能力。研究發現,將合成 sgRNA 融入不平衡數據集能顯著提升預測性能,顯示平衡訓練集在準確預測 sgRNA 活性中的重要性。 PubMed DOI