原始文章

CRISPR-Cas 系統徹底改變了合成生物學,使得精確的基因編輯成為可能。研究人員為了提升 sgRNA 活性預測的準確性,開發了深度學習模型,包括卷積神經網絡(CNN)和大型語言模型(LLM)。這些模型使用了針對酵母 *Yarrowia lipolytica* 的篩選數據進行訓練,並評估其預測高低活性 sgRNA 的能力。研究發現,將合成 sgRNA 融入不平衡數據集能顯著提升預測性能,顯示平衡訓練集在準確預測 sgRNA 活性中的重要性。 PubMed DOI


站上相關主題文章列表

深度學習模型如LLMs和3D CNNs被用來預測蛋白質的突變效應。LLMs利用變壓器訓練蛋白質序列,3D CNNs則訓練局部蛋白質結構。兩者準確度相近,但應用範圍和預測方式不同。LLMs擅長預測溶劑中的極性和帶電氨基酸,3D CNNs在預測埋藏的脂肪族和疏水性殘基方面表現較佳。整合兩者可提升預測效果。 PubMed DOI

深度學習模型,如LLMs和3D CNNs,常用來預測蛋白質的突變效應。LLMs以變壓器訓練蛋白質序列,3D CNNs則訓練局部蛋白結構。雖然兩者整體表現相似,但各有優劣。結構模型擅長預測脂肪族和疏水性殘基,LLMs則擅長預測極性和帶電氨基酸。結合兩者可提高預測準確度。 PubMed DOI

合成生物學期刊文章提取知識應用於機器學習需耗時。使用GPT-4可加速提取微生物在複雜條件下的表現資訊。一研究利用GPT-4管線從176篇文章中擷取數據,總計2037個數據實例。機器學習模型如隨機森林可預測Yarrowia的發酵濃度,R^2為0.86。透過轉移學習,可評估Rhodosporidium toruloides的生產潛力。研究顯示AI如何從文章中提取資訊,有助於預測生物製造發展。 PubMed DOI

AbGAN-LMG是一種新型生成對抗網路,利用語言模型改進高品質抗體的生成。研究指出AbGAN-LMG在COVID-19和MERS-CoV抗體上的應用,提升生成序列的多樣性和品質。對抗體AZD-8895的研究發現,超過50%的生成序列具有更佳性質。分子對接確認了70種抗體對SARS-CoV-2 RBD的親和力高於AZD-8895。AbGAN-LMG結合語言模型與GANs,提升抗體優化效率。詳情請見:http://39.102.71.224:88/。 PubMed DOI

研究者利用機器學習模型和大型語言模型,透過檢索增強生成方法,預測並生成可解釋的BsAbs分析報告。結合XGBoost和GPT模型,討論BsAbs藥物的有效性,協助製藥公司做出更明智的決策。這項研究創新之處在於整合機器學習和GPT技術,提升了預測的精確性和可解釋性。 PubMed DOI

這項研究強調微調蛋白質語言模型在各種預測任務中的有效性,顯示針對特定任務的監督式微調能提升表現。研究比較了三個先進模型(ESM2、ProtT5、Ankh)在八個任務上的表現,結果顯示高效的微調能達到類似改善,並顯著減少資源消耗和訓練時間。特別對於數據集有限的任務,如預測單個蛋白質的適應性景觀,微調的做法更具價值。作者還提供了使用者友好的筆記本,方便進行模型微調。 PubMed DOI

這項研究探討基因組語言模型(gLMs)在蛋白質相關任務上的表現,並與蛋白質語言模型(pLMs)進行比較。研究人員整理了五個數據集,將編碼DNA序列(CDS)與蛋白質連結。結果顯示,gLMs在某些任務上表現優於pLMs,特別是使用檢索的CDS時。此外,聯合基因組-蛋白質模型展現了更佳的表現。研究還開發了一種新的核苷酸變壓器模型,使用3mer標記化,表現優於6mer版本。這顯示gLMs在蛋白質組學中的潛力,並建議統一基因組學與蛋白質組學的方法。作者已公開代碼和數據集。 PubMed DOI

基因工程,特別是CRISPR技術的引入,徹底改變了生物醫學研究,讓精確基因修改成為可能。不過,利用這些技術需要深入了解CRISPR及其實驗背景。為此,我們提出CRISPR-GPT,這是一個結合專業知識的大型語言模型,旨在簡化基因編輯實驗設計。CRISPR-GPT能協助選擇CRISPR系統、設計引導RNA、推薦傳遞方法等,並計劃驗證實驗。我們展示了它對非專家研究者的實用性,並探討了自動化基因編輯的倫理與監管影響,強調負責任的實踐。 PubMed DOI

這項研究探討了一種新方法,利用深度學習預測與非編碼單核苷酸多態性(SNPs)相關的分子過程,特別是在全基因組關聯研究中。傳統方法需大量標記DNA序列,但因人類基因組有限,數據可用性受限。為解決此問題,作者提出了一種半監督學習(SSL)方法,利用來自多種哺乳動物基因組的未標記DNA序列,並結合Noisy Student算法來增強預訓練的數據信心。結果顯示,這種方法能顯著提升預測性能,且小型模型的表現可與大型模型相媲美。 PubMed DOI

CRISPR-Cas 系統的引入大幅推進了基因編輯技術。傳統上,發現 Cas 蛋白常依賴序列相似性,可能會忽略遠端同源物。隨著大型語言模型的發展,現在可以在不需大量訓練數據的情況下對 Cas 系統進行建模。我們提出的 CHOOSER 框架,能無需對齊地發現 CRISPR-Cas 系統,特別是具自我處理 pre-crRNA 能力的系統。透過 CHOOSER,我們識別出 11 個新 Casλ 同源物,顯示其在基因編輯領域的潛力。 PubMed DOI