原始文章

SARITA 是用 GPT-3 打造的語言模型,專門針對超過十萬條新冠病毒 Spike 蛋白序列訓練。它能產生擬真的 S1 亞基序列,預測病毒突變(像 Delta、Omicron)很準,甚至能預見資料裡沒出現過的免疫逃脫變化。SARITA 的預測和實際病毒演化很接近,有助於未來疫苗和藥物開發。 PubMed DOI


站上相關主題文章列表

透過序列數據訓練的語言模型可學習蛋白質設計原則,但蛋白功能受結構影響。結合語言模型與結構資訊,可引導蛋白演化,改良抗SARS-CoV-2抗體,增強對病毒變異的中和能力。整合結構數據有助於找出有效蛋白演化路徑,無需特定訓練。 PubMed DOI

提議的PALM-H3模型旨在簡化抗體設計,專注於生成針對特定抗原的人工抗體,特別是重鏈互補決定區域3(CDRH3),減少了從血清中分離天然抗體的需求,節省資源和時間。此外,A2binder模型可預測抗原與抗體的結合特異性。PALM-H3生成的抗體對SARS-CoV-2抗原,包括XBB變異株,顯示出高結合親和力和強中和能力。透過Roformer架構的注意力機制,增強了模型的可解釋性,為抗體設計提供了重要見解,代表抗體工程的一大進展。 PubMed DOI

深度生成模型越來越常用於從零開始設計功能性蛋白質。雖然3D蛋白質設計是一種方法,但基於序列的生成方法因為擁有大量的蛋白質序列數據和較簡單的訓練需求而更受歡迎。這些模型專注於匹配訓練數據中的蛋白質序列,但不必每個氨基酸都完全一致,因為某些變異不影響功能。 我們提出了一種新訓練方法,優化氨基酸序列和潛在空間中的訓練數據可能性,並在生成抗微生物肽和蘋果酸脫氫酶上測試,結果超越了多種其他深度生成模型,顯示出我們的方法在功能性蛋白質生成上的有效性。 PubMed DOI

傳統抗體發現方法效率低、成本高且成功率不佳。為了解決這些問題,最近引入了人工智慧(AI)技術來增強和創造新的抗體序列。本研究介紹了MAGE(單克隆抗體生成器),這是一種專門設計的蛋白質語言模型,能生成針對不同目標的人類抗體序列。MAGE已成功產生新穎且多樣的抗體,並在實驗中證實其對SARS-CoV-2、禽流感H5N1和RSV-A的結合特異性,成為針對多目標抗體設計的先驅工具。 PubMed DOI

這篇研究用MAMMAL AI模型,僅靠序列資料就能準確預測抗體和流感HA抗原的結合及阻斷效果。模型對已知抗體和抗原表現優異(AUROC ≥ 0.91),對新抗原也不錯(AUROC 0.9),但遇到全新抗體時準確度會下降。這顯示AI有助於抗體篩選,但還需要更多元的抗體資料來提升預測新抗體的能力。 PubMed DOI

目前人類抗體序列的多樣性了解有限,因為現有檢測方法又貴又沒效率。作者開發了IgHuAb大型語言模型,能產生大量成對人類抗體序列,並建立了SynAbLib合成抗體庫,不只反映自然多樣性,還有更高變化。實驗證明,SynAbLib的抗體表現很好。這些工具提供一種可擴展的方法,能快速產生和搜尋理想人類抗體。 PubMed DOI

這項研究用NLP技術自動抓取SARS-CoV-2相關論文中的病患元資料。團隊用BERT模型訓練分類器,並比較生成式AI(Llama-3-70B)的表現。結果顯示,針對生醫或COVID-19文本預訓練的BERT模型效果最好,F1-score達0.776,明顯優於生成式AI(F1-score僅0.558)。這方法已應用於35萬多篇文章,有助於基因流行病學研究。 PubMed DOI

研究團隊開發了BERT-infect模型,專門用來預測哪些病毒可能感染人類,準確度比以往高,特別對過去較少研究的病毒也有好表現。即使病毒基因序列不完整,模型也能運作。不過,目前還難以精確辨識像SARS-CoV-2這類特定病毒的風險,顯示機器學習在預測新興人畜共通傳染病上,還有不少挑戰要解決。 PubMed DOI

作者提出一套新方法,結合半監督神經網路(Seq2Fitness)和創新最佳化演算法(BADASS),能更準確預測蛋白質適應度,並有效率產生多樣且高適應度的蛋白質序列。這方法比現有技術更省資源、效果更好,未來也有機會應用在 DNA、RNA 等其他生物序列上。 PubMed DOI

PandemicLLM 是新一代疫情預測框架,把疾病傳播預測當成文字推理問題來解決。它結合即時多元資料(如防疫政策、基因監測、時序數據),透過 AI 與人類協作提示提升預測準確度。實測美國各州 COVID-19 資料,表現優於現有模型,能整合複雜非數值資訊,讓疫情預測更精準。 PubMed DOI