原始文章

CRISPR-Cas 系統徹底改變了合成生物學,使得精確的基因編輯成為可能。研究人員為了提升 sgRNA 活性預測的準確性,開發了深度學習模型,包括卷積神經網絡(CNN)和大型語言模型(LLM)。這些模型使用了針對酵母 *Yarrowia lipolytica* 的篩選數據進行訓練,並評估其預測高低活性 sgRNA 的能力。研究發現,將合成 sgRNA 融入不平衡數據集能顯著提升預測性能,顯示平衡訓練集在準確預測 sgRNA 活性中的重要性。 PubMed DOI


站上相關主題文章列表

研究者利用機器學習模型和大型語言模型,透過檢索增強生成方法,預測並生成可解釋的BsAbs分析報告。結合XGBoost和GPT模型,討論BsAbs藥物的有效性,協助製藥公司做出更明智的決策。這項研究創新之處在於整合機器學習和GPT技術,提升了預測的精確性和可解釋性。 PubMed DOI

基因工程,特別是CRISPR技術的引入,徹底改變了生物醫學研究,讓精確基因修改成為可能。不過,利用這些技術需要深入了解CRISPR及其實驗背景。為此,我們提出CRISPR-GPT,這是一個結合專業知識的大型語言模型,旨在簡化基因編輯實驗設計。CRISPR-GPT能協助選擇CRISPR系統、設計引導RNA、推薦傳遞方法等,並計劃驗證實驗。我們展示了它對非專家研究者的實用性,並探討了自動化基因編輯的倫理與監管影響,強調負責任的實踐。 PubMed DOI

這項研究探討了一種新方法,利用深度學習預測與非編碼單核苷酸多態性(SNPs)相關的分子過程,特別是在全基因組關聯研究中。傳統方法需大量標記DNA序列,但因人類基因組有限,數據可用性受限。為解決此問題,作者提出了一種半監督學習(SSL)方法,利用來自多種哺乳動物基因組的未標記DNA序列,並結合Noisy Student算法來增強預訓練的數據信心。結果顯示,這種方法能顯著提升預測性能,且小型模型的表現可與大型模型相媲美。 PubMed DOI

CRISPR-Cas 系統的引入大幅推進了基因編輯技術。傳統上,發現 Cas 蛋白常依賴序列相似性,可能會忽略遠端同源物。隨著大型語言模型的發展,現在可以在不需大量訓練數據的情況下對 Cas 系統進行建模。我們提出的 CHOOSER 框架,能無需對齊地發現 CRISPR-Cas 系統,特別是具自我處理 pre-crRNA 能力的系統。透過 CHOOSER,我們識別出 11 個新 Casλ 同源物,顯示其在基因編輯領域的潛力。 PubMed DOI

研究細胞如何對基因變化反應,對理解基因調控和性狀發展非常重要。高通量單細胞RNA測序技術提升了我們的分析能力,但仍需有效的計算模型來解釋和預測這些反應。 在此背景下,我們推出了scLAMBDA,一個深度生成學習框架,專注於建模和預測單細胞對基因擾動的反應。scLAMBDA結合大型語言模型的基因嵌入,能有效區分基線細胞狀態與擾動影響。 評估結果顯示,scLAMBDA在預測基因擾動結果上超越現有方法,準確性更高,且對新目標基因和擾動具良好泛化能力,支持多種下游分析,展現其實用性和靈活性。 PubMed DOI

這篇論文介紹了FairPlay,一種新穎的合成數據生成方法,利用大型語言模型來解決臨床結果預測中的挑戰,特別是針對不平衡數據集和公平治療的需求。FairPlay生成現實且匿名的合成病人數據,改善代表性並增強數據集,提升算法性能,減少預測偏見,並保持隱私。實驗結果顯示,FairPlay顯著提升死亡預測的F1分數,最高可提高21%,且有效縮小不同子群體的性能差距,展現出一致的改善。 PubMed DOI

基因編輯(GE)是生命科學中的重要工具,但因物種、基因序列及工具不同,編輯某些基因會遇到挑戰。為了提升基因編輯研究的設計,確認文獻中基因編輯的實踐至關重要。基因編輯元數據庫(GEM)提供了有用的資訊,但對特定基因的參與細節仍不足。 本研究開發了一種系統性方法,利用大型語言模型從GEM及相關文獻中提取關鍵資訊,讓基因編輯數據的調查更全面。我們還提出將這些資訊轉換為指標,以優先考慮未來的研究基因。最終的基因編輯資訊和評分系統旨在簡化目標基因的選擇,改善研究設計。欲了解更多,請訪問以下網址:https://github.com/szktkyk/extract_geinfo 和 https://github.com/szktkyk/visualize_geinfo。 PubMed DOI

這項研究探討訓練數據集的組成如何影響單細胞轉錄組學模型在人體造血中的表現。研究結果顯示: 1. 模型對新細胞類型的泛化能力較差。 2. 在健康細胞訓練集中加入惡性細胞,並不一定能改善對新惡性細胞的建模。 3. 使用胚胎幹細胞分化圖譜訓練可提升在分佈外數據任務的表現。 這些發現強調了多樣化訓練數據對開發有效單細胞模型的重要性,並提出了未來模型優化的策略。 PubMed DOI

CRISPR-Cas9 系統雖然改變了基因組編輯,但 Cas9 的脫靶效應仍是臨床應用的挑戰。本研究評估了來自 *Faecalibaculum rodentium* 的 FrCas9 變體,並與 SpCas9 和新合成的 OpenCRISPR-1 進行比較。結果顯示,FrCas9 的目標效率優於其他兩者,且脫靶效應顯著較少。將 TREX2 與 FrCas9 融合後,能進一步減少缺失和易位,提高基因組穩定性。我們篩選了 1903 個 sgRNA,為 21 個 CGT 相關基因識別最佳 sgRNA,顯示 FrCas9 是一種高效且特異的基因編輯工具。 PubMed DOI

這項研究探討了細菌啟動子預測模型中,因選擇負資料集而產生的偏差,特別是GC含量的差異。研究發現,現有的多物種模型在使用編碼序列(CDS)作為負資料集時,會受到影響。為了解決這個問題,研究引入了合成隨機序列(SRS),模擬實際啟動子的GC含量分佈。結果顯示,使用SRS能減少GC含量的偏差,並提升啟動子預測器的表現,尤其是DNABERT的結果最佳。這強調了GC平衡資料集在不同細菌物種啟動子分類中的重要性。實驗源代碼已上線提供。 PubMed DOI