M<sup>3</sup>-20M: A large-scale multi-modal molecule dataset for AI-driven drug design and discovery.
M<sup>3</sup>-20M:用於AI驅動藥物設計與發現的大規模多模態分子資料集
J Bioinform Comput Biol 2025-06-10
這篇論文推出 M³-20M 超大多模態分子資料集,收錄超過兩千萬個分子,規模比以往大71倍,結合 SMILES、2D/3D 結構、分子性質和文字描述(部分由 GPT-3.5 產生)。實驗證明,用這資料集訓練的模型在分子生成和性質預測上表現更好,對 AI 輔助藥物設計很有幫助。資料集連結:https://github.com/bz99bz/M-3
PubMedDOI♡
站上相關主題文章列表
Unlocking comprehensive molecular design across all scenarios with large language model and unordered chemical language.
利用大型語言模型和無序化學語言解鎖各種情境下的全面分子設計。
Chem Sci 2024-08-30
GexMolGen: cross-modal generation of hit-like molecules via large language model encoding of gene expression signatures.
GexMolGen:通過大型語言模型編碼基因表達特徵的跨模態生成類藥物分子。
Brief Bioinform 2024-10-29
Effective and Explainable Molecular Property Prediction by Chain-of-Thought Enabled Large Language Models and Multi-Modal Molecular Information Fusion.
由Chain-of-Thought強化大型語言模型與多模態分子資訊融合實現有效且可解釋的分子性質預測
J Chem Inf Model 2025-05-20