您的研究揭示了自然語言處理(NLP)技術與生物資訊學的潛在交集,特別是在DNA序列方面。您將DNA視為由四種核苷酸組成的語言,並將NLP模型如BERT和GPT-3應用於基因組學。
專注於人類基因序列使數據集更易管理,且循環神經網絡(RNN)在生成DNA序列上表現優於傳統N-gram方法,顯示複雜模型能更好捕捉生物數據的細微差異。
此外,您對詞彙大小對數據需求的影響進行調查,結果顯示較小的詞彙並不一定減少訓練數據需求。整體而言,您的研究為DNA序列生成建模開啟了新方向,可能促進生物資訊學的進步。
PubMed
DOI