原始文章

這篇論文提出 MoleCLIP 分子表徵學習框架,改良自 OpenAI 的 CLIP 模型。MoleCLIP 只需少量分子預訓練資料,就能在化學性質預測上達到甚至超越現有最佳表現,特別是在均相催化等困難任務上更顯優勢,展現基礎模型在化學領域的潛力,有望加速分子發現。 PubMed DOI


站上相關主題文章列表

在分子生物學中,探索分子間的關聯性至關重要,而大型語言模型(LLMs)的出現大幅推進了這一領域。這些模型在自然語言處理和圖像生成上表現優異,能夠從龐大數據集中捕捉複雜關係,成為基礎模型。 目前的數據集涵蓋RNA、DNA、蛋白質序列及單細胞和空間轉錄組,為模型開發提供了豐富基礎。未來,基礎模型的發展將專注於提升可解釋性、整合多組學數據及增強預測能力,對於改進我們對生物系統的理解及治療策略具有巨大潛力。 PubMed DOI

Omics 資料量暴增,超出現有分析能力,但大型語言模型(LLMs)能解決這問題。透過多模態基礎模型預訓練,可有效解析基因體、轉錄體等多元資料,應用於細胞分類、生物標記發現、基因調控等,推動 AI 驅動的生物研究,深入了解生命科學。 PubMed DOI

這篇研究提出一種少量樣本NER模型,能用很少的標註例子就學會辨識新的化學實體。透過度量學習,把現有化學知識轉移到像催化這種資料少的領域,即使每類只用5個例子也有好表現。研究也證明LLM能產生訓練資料,讓NER系統更快適應專業化學領域。 PubMed DOI

基礎模型像 ChatGPT 這類 AI,現在也被用在化學領域,幫忙解決材料發現、結構和性質預測等難題。這些模型能克服資料不足和泛化能力差的問題,展現很大潛力。這篇綜述整理了最新進展、趨勢,還有未來在化學研究上的發展方向。 PubMed DOI

作者提出 ChemLML 這個輕量級方法,把現有的文字和分子模型結合起來,能直接從文字描述產生新分子,不用從零訓練模型,省下不少算力。分子表示法選擇很重要,SMILES 通常比 SELFIES 表現更好。作者也討論資料集問題,並證明 ChemLML 在藥物分子生成和評估上很有成效。 PubMed

Token-Mol 是專為藥物設計打造的新型 transformer 架構,能同時編碼分子的 2D 和 3D 資訊。它用創新損失函數提升回歸表現,在分子構象生成、性質預測和藥物分子設計上都優於傳統模型,運算速度也比 diffusion models 快很多。結合強化學習後,藥物開發成效會更好。 PubMed DOI

這篇論文提出LLM-MPP新方法,結合大型語言模型和多種分子資料(像SMILES、分子圖和文字描述),用於新藥開發。透過chain-of-thought推理、cross-attention和對比學習,有效整合多模態資訊,提升預測準確度和可解釋性。實驗結果顯示,LLM-MPP在九個資料集上表現都比現有方法更好,突破了多模態整合和可解釋性的瓶頸。 PubMed DOI

XMolCap 是一套全新分子描述系統,結合分子影像、SMILES 字串和圖結構,透過多模態融合技術,能產生可解釋又精確的分子描述。它基於 BioT5 架構,並用 SwinOCSR、SciBERT、GIN-MoMu 等模型萃取特徵,表現優於現有方法,對新藥開發很有幫助。程式碼已開源,有興趣可到 GitHub 查看。 PubMed DOI

這篇研究提出GICL框架,把藥物SMILES字串的大型語言模型嵌入和分子影像結合,利用跨模態對比學習整合資訊。這種融合方式讓GICL在藥物性質預測(ADMET)上表現領先,還能提供可解釋的分析,有助於提升藥物開發效率。 PubMed DOI

這篇論文推出 M³-20M 超大多模態分子資料集,收錄超過兩千萬個分子,規模比以往大71倍,結合 SMILES、2D/3D 結構、分子性質和文字描述(部分由 GPT-3.5 產生)。實驗證明,用這資料集訓練的模型在分子生成和性質預測上表現更好,對 AI 輔助藥物設計很有幫助。資料集連結:https://github.com/bz99bz/M-3 PubMed DOI