原始文章

這篇論文推出 M³-20M 超大多模態分子資料集,收錄超過兩千萬個分子,規模比以往大71倍,結合 SMILES、2D/3D 結構、分子性質和文字描述(部分由 GPT-3.5 產生)。實驗證明,用這資料集訓練的模型在分子生成和性質預測上表現更好,對 AI 輔助藥物設計很有幫助。資料集連結:https://github.com/bz99bz/M-3 PubMed DOI


站上相關主題文章列表

準確預測ADMET(吸收、分佈、代謝、排泄和毒性)特性對藥物開發非常重要,能幫助選擇具良好藥物動力學及降低毒性的化合物。目前的ADMET數據集因樣本數量少及代表性不足而受限。為了解決這些問題,我們提出了一個多代理數據挖掘系統,利用大型語言模型識別14,401個生物測試的實驗條件,並整合不同來源的數據,最終創建了PharmaBench,包含156,618條原始條目,旨在支持藥物發現相關的AI模型開發。 PubMed DOI

最近大型語言模型(LLMs)在藥物發現中的應用引起關注,特別是在分子優化方面。大多數現有方法未能納入專家反饋,缺乏迭代和經驗性特徵。為了解決這個問題,我們推出了DrugAssist,一個透過人機對話增強分子優化的互動模型。DrugAssist在優化多個性質上表現優異,顯示出其可轉移性和改進潛力。此外,我們還發布了'MolOpt-Instructions'數據集,以促進語言模型的微調。相關代碼和數據集可在 https://github.com/blazerye/DrugAssist 獲得,支持未來的研究。 PubMed DOI

這項研究旨在從科學文獻中有效收集金屬有機框架(MOFs)的實驗數據,以解決稀缺數據的問題,並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型,系統化提取並整理MOF數據,成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係,並創建合成條件推薦系統,為優化合成策略提供實用工具,顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

傳統藥物設計又慢又容易失敗,深度學習模型像DrugGPT雖然能產生新分子,但常常沒用。DrugGen是改良版,結合真實資料和優化技術,能產生100%有效分子,預測和多樣性都更好。測試證明它有效,還能幫助藥物再利用和新藥設計,大大提升藥物開發效率。 PubMed DOI

作者提出TSMMG大型語言模型,能根據自然語言描述的多重性質限制,生成全新分子。TSMMG向多個專家模型學習,可同時滿足多種性質要求,分子有效率超過99%,成功率高。它也能應對沒見過的性質組合和不同語言提示,對藥物開發等領域很有幫助。 PubMed DOI

Token-Mol 是專為藥物設計打造的新型 transformer 架構,能同時編碼分子的 2D 和 3D 資訊。它用創新損失函數提升回歸表現,在分子構象生成、性質預測和藥物分子設計上都優於傳統模型,運算速度也比 diffusion models 快很多。結合強化學習後,藥物開發成效會更好。 PubMed DOI

這篇論文提出LLM-MPP新方法,結合大型語言模型和多種分子資料(像SMILES、分子圖和文字描述),用於新藥開發。透過chain-of-thought推理、cross-attention和對比學習,有效整合多模態資訊,提升預測準確度和可解釋性。實驗結果顯示,LLM-MPP在九個資料集上表現都比現有方法更好,突破了多模態整合和可解釋性的瓶頸。 PubMed DOI

XMolCap 是一套全新分子描述系統,結合分子影像、SMILES 字串和圖結構,透過多模態融合技術,能產生可解釋又精確的分子描述。它基於 BioT5 架構,並用 SwinOCSR、SciBERT、GIN-MoMu 等模型萃取特徵,表現優於現有方法,對新藥開發很有幫助。程式碼已開源,有興趣可到 GitHub 查看。 PubMed DOI

這篇研究提出GICL框架,把藥物SMILES字串的大型語言模型嵌入和分子影像結合,利用跨模態對比學習整合資訊。這種融合方式讓GICL在藥物性質預測(ADMET)上表現領先,還能提供可解釋的分析,有助於提升藥物開發效率。 PubMed DOI

**重點整理:** Zhao 等人開發了 ChemDFM,一款專為化學領域設計的大型語言模型,結合了通用 AI 能力和專業化學知識。它能夠解讀光譜數據、進行數值推理,還能連結化學工具和資料庫,成為科學研究與發現的重要助手。 PubMed DOI