Towards multimodal foundation models in molecular cell biology.
邁向分子細胞生物學中的多模態基礎模型
Nature 2025-04-16
Omics 資料量暴增,超出現有分析能力,但大型語言模型(LLMs)能解決這問題。透過多模態基礎模型預訓練,可有效解析基因體、轉錄體等多元資料,應用於細胞分類、生物標記發現、基因調控等,推動 AI 驅動的生物研究,深入了解生命科學。
PubMedDOI
Rapid Adaptation of Chemical Named Entity Recognition Using Few-Shot Learning and LLM Distillation.
利用少量學習與大型語言模型蒸餾,快速適應化學命名實體辨識
J Chem Inf Model 2025-05-01
Effective and Explainable Molecular Property Prediction by Chain-of-Thought Enabled Large Language Models and Multi-Modal Molecular Information Fusion.
由Chain-of-Thought強化大型語言模型與多模態分子資訊融合實現有效且可解釋的分子性質預測
J Chem Inf Model 2025-05-20
GICL: A Cross-Modal Drug Property Prediction Framework Based on Knowledge Enhancement of Large Language Models.
GICL:基於大型語言模型知識增強的跨模態藥物性質預測框架
J Chem Inf Model 2025-05-28
M<sup>3</sup>-20M: A large-scale multi-modal molecule dataset for AI-driven drug design and discovery.
M<sup>3</sup>-20M:用於AI驅動藥物設計與發現的大規模多模態分子資料集
J Bioinform Comput Biol 2025-06-10
這篇論文推出 M³-20M 超大多模態分子資料集,收錄超過兩千萬個分子,規模比以往大71倍,結合 SMILES、2D/3D 結構、分子性質和文字描述(部分由 GPT-3.5 產生)。實驗證明,用這資料集訓練的模型在分子生成和性質預測上表現更好,對 AI 輔助藥物設計很有幫助。資料集連結:https://github.com/bz99bz/M-3
PubMedDOI