M<sup>3</sup>-20M: A large-scale multi-modal molecule dataset for AI-driven drug design and discovery.
M<sup>3</sup>-20M:用於AI驅動藥物設計與發現的大規模多模態分子資料集
J Bioinform Comput Biol 2025-06-10
這篇論文推出 M³-20M 超大多模態分子資料集,收錄超過兩千萬個分子,規模比以往大71倍,結合 SMILES、2D/3D 結構、分子性質和文字描述(部分由 GPT-3.5 產生)。實驗證明,用這資料集訓練的模型在分子生成和性質預測上表現更好,對 AI 輔助藥物設計很有幫助。資料集連結:https://github.com/bz99bz/M-3
PubMedDOI♡
站上相關主題文章列表
PharmaBench: Enhancing ADMET benchmarks with large language models.
PharmaBench:利用大型語言模型增強 ADMET 基準。
Sci Data 2024-09-10
Effective and Explainable Molecular Property Prediction by Chain-of-Thought Enabled Large Language Models and Multi-Modal Molecular Information Fusion.
由Chain-of-Thought強化大型語言模型與多模態分子資訊融合實現有效且可解釋的分子性質預測
J Chem Inf Model 2025-05-20
GICL: A Cross-Modal Drug Property Prediction Framework Based on Knowledge Enhancement of Large Language Models.
GICL:基於大型語言模型知識增強的跨模態藥物性質預測框架
J Chem Inf Model 2025-05-28