原始文章

CRISPR-Cas 系統的引入大幅推進了基因編輯技術。傳統上,發現 Cas 蛋白常依賴序列相似性,可能會忽略遠端同源物。隨著大型語言模型的發展,現在可以在不需大量訓練數據的情況下對 Cas 系統進行建模。我們提出的 CHOOSER 框架,能無需對齊地發現 CRISPR-Cas 系統,特別是具自我處理 pre-crRNA 能力的系統。透過 CHOOSER,我們識別出 11 個新 Casλ 同源物,顯示其在基因編輯領域的潛力。 PubMed DOI


站上相關主題文章列表

ProGen是一個深度學習模型,可以像製造句子一樣,生成具有特定功能的蛋白質序列。透過大量蛋白質數據訓練後,ProGen可以微調,提升生成目標蛋白質的能力。這個模型可以創造人工蛋白質,效率與天然蛋白質相當,即使序列不同。適用於不同蛋白質家族,如輔酶A轉移酶和丙酮酸脫氫酶。 PubMed DOI

研究發現,利用蛋白質語言模型能夠改善病毒序列註釋,發現新的病毒蛋白質,並擴展海洋病毒體系的註釋。這種方法在海洋微生物中找到新的DNA編輯蛋白質家族,提升病毒蛋白質的辨識,並帶來新的生物發現。 PubMed DOI

研究使用大型語言模型(LLMs)探討基於知識的基因優先順序和選擇,專注於與紅血球特徵相關的血液轉錄模組。結果顯示,OpenAI的GPT-4和Anthropic的Claude在LLMs中表現最佳。研究找出了模組M9.2的頂尖基因候選者,顯示LLMs在基因選擇上的潛力,有助於提升生物醫學知識的應用價值。 PubMed DOI

人工智慧在醫學上有潛力,特別是像Med-PaLM 2這樣的大型語言模型。研究使用老鼠基因數據,成功找出與糖尿病、白內障等相關的基因,還發現了導致聽力喪失的遺傳因素,促使新易感性模型的發展。Med-PaLM 2可分析基因表現型關係,提出新假設,有助於加速基因研究。 PubMed DOI

研究發現第二類微囊素具抗生素潛力,但因為短小且多樣,發現受限。利用蛋白語言模型探測微囊素於細菌基因組,比傳統BLAST更有效。可準確辨識微囊素,並發現被忽略的新微囊素。 PubMed DOI

最新的語言模型對蛋白質研究有重大影響,特別是GPT-4等模型展現出潛力,可應用在蛋白質領域。蛋白質語言模型已顯示出預測和創新蛋白質的能力,並取得重要進展。本文討論了這個新興領域的機會和挑戰,並提供了LLMs對蛋白質研究的影響。 PubMed DOI

透過序列數據訓練的語言模型可學習蛋白質設計原則,但蛋白功能受結構影響。結合語言模型與結構資訊,可引導蛋白演化,改良抗SARS-CoV-2抗體,增強對病毒變異的中和能力。整合結構數據有助於找出有效蛋白演化路徑,無需特定訓練。 PubMed DOI

介紹了ProtAgents,一個利用大型語言模型設計新蛋白質的平台。多個人工智慧代理人合作應對複雜任務,擁有多樣能力。透過LLMs驅動的代理人合作,提供多功能蛋白質設計和分析方法。系統可設計新蛋白質、分析結構,並模擬振動頻率。自動化和協同方法可設計具特定機械性能的蛋白質,釋放解決多目標材料問題的潛力,為自主材料發現和設計鋪平道路。 PubMed DOI

基因工程,特別是CRISPR技術的引入,徹底改變了生物醫學研究,讓精確基因修改成為可能。不過,利用這些技術需要深入了解CRISPR及其實驗背景。為此,我們提出CRISPR-GPT,這是一個結合專業知識的大型語言模型,旨在簡化基因編輯實驗設計。CRISPR-GPT能協助選擇CRISPR系統、設計引導RNA、推薦傳遞方法等,並計劃驗證實驗。我們展示了它對非專家研究者的實用性,並探討了自動化基因編輯的倫理與監管影響,強調負責任的實踐。 PubMed DOI

CRISPR-Cas 系統徹底改變了合成生物學,使得精確的基因編輯成為可能。研究人員為了提升 sgRNA 活性預測的準確性,開發了深度學習模型,包括卷積神經網絡(CNN)和大型語言模型(LLM)。這些模型使用了針對酵母 *Yarrowia lipolytica* 的篩選數據進行訓練,並評估其預測高低活性 sgRNA 的能力。研究發現,將合成 sgRNA 融入不平衡數據集能顯著提升預測性能,顯示平衡訓練集在準確預測 sgRNA 活性中的重要性。 PubMed DOI