原始文章

這篇論文提出 MoleCLIP 分子表徵學習框架,改良自 OpenAI 的 CLIP 模型。MoleCLIP 只需少量分子預訓練資料,就能在化學性質預測上達到甚至超越現有最佳表現,特別是在均相催化等困難任務上更顯優勢,展現基礎模型在化學領域的潛力,有望加速分子發現。 PubMed DOI


站上相關主題文章列表

在分子生物學中,探索分子間的關聯性至關重要,而大型語言模型(LLMs)的出現大幅推進了這一領域。這些模型在自然語言處理和圖像生成上表現優異,能夠從龐大數據集中捕捉複雜關係,成為基礎模型。 目前的數據集涵蓋RNA、DNA、蛋白質序列及單細胞和空間轉錄組,為模型開發提供了豐富基礎。未來,基礎模型的發展將專注於提升可解釋性、整合多組學數據及增強預測能力,對於改進我們對生物系統的理解及治療策略具有巨大潛力。 PubMed DOI

分子生成是人工智慧的一個重要領域,對小分子藥物開發影響深遠。現有方法在某些設計上表現不佳,因此我們提出了FU-SMILES框架,透過片段簡化分子輸入,並推出了FragGPT這個通用分子生成模型。FragGPT在大型數據集上預訓練,能高效生成新分子、連接子設計等,並結合條件生成和強化學習技術,確保生成的分子符合生物學和物理化學標準。實驗結果顯示,FragGPT在生成創新結構的分子方面表現優異,超越現有模型,並在藥物設計中得到驗證。 PubMed DOI

小分子的設計對於藥物發現和能源儲存等技術應用非常重要。隨著合成化學的發展,科學界開始利用數據驅動和機器學習方法來探索設計空間。雖然生成式機器學習在分子設計上有潛力,但訓練過程複雜,且生成有效分子不易。研究顯示,預訓練的大型語言模型(LLMs)如Claude 3 Opus能根據自然語言指示創建和修改分子,達到97%的有效生成率。這些發現顯示LLMs在分子設計上具備強大潛力。 PubMed DOI

Omics 資料量暴增,超出現有分析能力,但大型語言模型(LLMs)能解決這問題。透過多模態基礎模型預訓練,可有效解析基因體、轉錄體等多元資料,應用於細胞分類、生物標記發現、基因調控等,推動 AI 驅動的生物研究,深入了解生命科學。 PubMed DOI

這篇研究提出一種少量樣本NER模型,能用很少的標註例子就學會辨識新的化學實體。透過度量學習,把現有化學知識轉移到像催化這種資料少的領域,即使每類只用5個例子也有好表現。研究也證明LLM能產生訓練資料,讓NER系統更快適應專業化學領域。 PubMed DOI

基礎模型像 ChatGPT 這類 AI,現在也被用在化學領域,幫忙解決材料發現、結構和性質預測等難題。這些模型能克服資料不足和泛化能力差的問題,展現很大潛力。這篇綜述整理了最新進展、趨勢,還有未來在化學研究上的發展方向。 PubMed DOI

作者提出 ChemLML 這個輕量級方法,把現有的文字和分子模型結合起來,能直接從文字描述產生新分子,不用從零訓練模型,省下不少算力。分子表示法選擇很重要,SMILES 通常比 SELFIES 表現更好。作者也討論資料集問題,並證明 ChemLML 在藥物分子生成和評估上很有成效。 PubMed

這篇論文提出LLM-MPP新方法,結合大型語言模型和多種分子資料(像SMILES、分子圖和文字描述),用於新藥開發。透過chain-of-thought推理、cross-attention和對比學習,有效整合多模態資訊,提升預測準確度和可解釋性。實驗結果顯示,LLM-MPP在九個資料集上表現都比現有方法更好,突破了多模態整合和可解釋性的瓶頸。 PubMed DOI

XMolCap 是一套全新分子描述系統,結合分子影像、SMILES 字串和圖結構,透過多模態融合技術,能產生可解釋又精確的分子描述。它基於 BioT5 架構,並用 SwinOCSR、SciBERT、GIN-MoMu 等模型萃取特徵,表現優於現有方法,對新藥開發很有幫助。程式碼已開源,有興趣可到 GitHub 查看。 PubMed DOI

這篇研究提出GICL框架,把藥物SMILES字串的大型語言模型嵌入和分子影像結合,利用跨模態對比學習整合資訊。這種融合方式讓GICL在藥物性質預測(ADMET)上表現領先,還能提供可解釋的分析,有助於提升藥物開發效率。 PubMed DOI