原始文章

這篇論文推出 M³-20M 超大多模態分子資料集,收錄超過兩千萬個分子,規模比以往大71倍,結合 SMILES、2D/3D 結構、分子性質和文字描述(部分由 GPT-3.5 產生)。實驗證明,用這資料集訓練的模型在分子生成和性質預測上表現更好,對 AI 輔助藥物設計很有幫助。資料集連結:https://github.com/bz99bz/M-3 PubMed DOI


站上相關主題文章列表

分子生成是人工智慧的一個重要領域,對小分子藥物開發影響深遠。現有方法在某些設計上表現不佳,因此我們提出了FU-SMILES框架,透過片段簡化分子輸入,並推出了FragGPT這個通用分子生成模型。FragGPT在大型數據集上預訓練,能高效生成新分子、連接子設計等,並結合條件生成和強化學習技術,確保生成的分子符合生物學和物理化學標準。實驗結果顯示,FragGPT在生成創新結構的分子方面表現優異,超越現有模型,並在藥物設計中得到驗證。 PubMed DOI

小分子的設計對於藥物發現和能源儲存等技術應用非常重要。隨著合成化學的發展,科學界開始利用數據驅動和機器學習方法來探索設計空間。雖然生成式機器學習在分子設計上有潛力,但訓練過程複雜,且生成有效分子不易。研究顯示,預訓練的大型語言模型(LLMs)如Claude 3 Opus能根據自然語言指示創建和修改分子,達到97%的有效生成率。這些發現顯示LLMs在分子設計上具備強大潛力。 PubMed DOI

準確預測ADMET(吸收、分佈、代謝、排泄和毒性)特性對藥物開發非常重要,能幫助選擇具良好藥物動力學及降低毒性的化合物。目前的ADMET數據集因樣本數量少及代表性不足而受限。為了解決這些問題,我們提出了一個多代理數據挖掘系統,利用大型語言模型識別14,401個生物測試的實驗條件,並整合不同來源的數據,最終創建了PharmaBench,包含156,618條原始條目,旨在支持藥物發現相關的AI模型開發。 PubMed DOI

開發新分子以推進藥物發現非常重要,因為這能省去探索目標基因的初步步驟。傳統方法常依賴現有數據篩選分子,但因數據集有限,可能受到限制。為了解決這些問題,我們推出了GexMolGen,這是一種根據基因表達特徵生成類似命中分子的全新方法。它透過「先對齊再生成」的策略,將基因表達特徵與分子表示對齊,並確保生成的分子結構有效。實證結果顯示,GexMolGen能生成與已知物質相似的分子,為藥物發現提供了新途徑。 PubMed DOI

3DSMILES-GPT是一個創新的框架,專門用來生成三維(3D)分子,目的是提升藥物發現的效率。傳統方法常常產生無效的分子,且生成時間較長。相對之下,3DSMILES-GPT透過標記方式,將2D和3D分子視為語言來處理。經過大規模數據集的預訓練和微調後,該模型在結合親和力、藥物相似性(QED)和合成可及性評分(SAS)等指標上表現優異,生成速度也快,每個分子僅需約0.45秒,顯示出其在藥物發現中的巨大潛力。 PubMed DOI

最近大型語言模型(LLMs)在藥物發現中的應用引起關注,特別是在分子優化方面。大多數現有方法未能納入專家反饋,缺乏迭代和經驗性特徵。為了解決這個問題,我們推出了DrugAssist,一個透過人機對話增強分子優化的互動模型。DrugAssist在優化多個性質上表現優異,顯示出其可轉移性和改進潛力。此外,我們還發布了'MolOpt-Instructions'數據集,以促進語言模型的微調。相關代碼和數據集可在 https://github.com/blazerye/DrugAssist 獲得,支持未來的研究。 PubMed DOI

作者提出TSMMG大型語言模型,能根據自然語言描述的多重性質限制,生成全新分子。TSMMG向多個專家模型學習,可同時滿足多種性質要求,分子有效率超過99%,成功率高。它也能應對沒見過的性質組合和不同語言提示,對藥物開發等領域很有幫助。 PubMed DOI

Token-Mol 是專為藥物設計打造的新型 transformer 架構,能同時編碼分子的 2D 和 3D 資訊。它用創新損失函數提升回歸表現,在分子構象生成、性質預測和藥物分子設計上都優於傳統模型,運算速度也比 diffusion models 快很多。結合強化學習後,藥物開發成效會更好。 PubMed DOI

這篇論文提出LLM-MPP新方法,結合大型語言模型和多種分子資料(像SMILES、分子圖和文字描述),用於新藥開發。透過chain-of-thought推理、cross-attention和對比學習,有效整合多模態資訊,提升預測準確度和可解釋性。實驗結果顯示,LLM-MPP在九個資料集上表現都比現有方法更好,突破了多模態整合和可解釋性的瓶頸。 PubMed DOI

XMolCap 是一套全新分子描述系統,結合分子影像、SMILES 字串和圖結構,透過多模態融合技術,能產生可解釋又精確的分子描述。它基於 BioT5 架構,並用 SwinOCSR、SciBERT、GIN-MoMu 等模型萃取特徵,表現優於現有方法,對新藥開發很有幫助。程式碼已開源,有興趣可到 GitHub 查看。 PubMed DOI