Foundation models in molecular biology.
分子生物學中的基礎模型。 Biophys Rep 2024-07-19

在分子生物學中，探索分子間的關聯性至關重要，而大型語言模型（LLMs）的出現大幅推進了這一領域。這些模型在自然語言處理和圖像生成上表現優異，能夠從龐大數據集中捕捉複雜關係，成為基礎模型。目前的數據集涵蓋RNA、DNA、蛋白質序列及單細胞和空間轉錄組，為模型開發提供了豐富基礎。未來，基礎模型的發展將專注於提升可解釋性、整合多組學數據及增強預測能力，對於改進我們對生物系統的理解及治療策略具有巨大潛力。 PubMed DOI

Unlocking comprehensive molecular design across all scenarios with large language model and unordered chemical language.
利用大型語言模型和無序化學語言解鎖各種情境下的全面分子設計。 Chem Sci 2024-08-30

分子生成是人工智慧的一個重要領域，對小分子藥物開發影響深遠。現有方法在某些設計上表現不佳，因此我們提出了FU-SMILES框架，透過片段簡化分子輸入，並推出了FragGPT這個通用分子生成模型。FragGPT在大型數據集上預訓練，能高效生成新分子、連接子設計等，並結合條件生成和強化學習技術，確保生成的分子符合生物學和物理化學標準。實驗結果顯示，FragGPT在生成創新結構的分子方面表現優異，超越現有模型，並在藥物設計中得到驗證。 PubMed DOI

Large Language Models as Molecular Design Engines.
大型語言模型作為分子設計引擎。 J Chem Inf Model 2024-09-04

小分子的設計對於藥物發現和能源儲存等技術應用非常重要。隨著合成化學的發展，科學界開始利用數據驅動和機器學習方法來探索設計空間。雖然生成式機器學習在分子設計上有潛力，但訓練過程複雜，且生成有效分子不易。研究顯示，預訓練的大型語言模型（LLMs）如Claude 3 Opus能根據自然語言指示創建和修改分子，達到97%的有效生成率。這些發現顯示LLMs在分子設計上具備強大潛力。 PubMed DOI

Towards multimodal foundation models in molecular cell biology.
邁向分子細胞生物學中的多模態基礎模型 Nature 2025-04-16

Omics 資料量暴增，超出現有分析能力，但大型語言模型（LLMs）能解決這問題。透過多模態基礎模型預訓練，可有效解析基因體、轉錄體等多元資料，應用於細胞分類、生物標記發現、基因調控等，推動 AI 驅動的生物研究，深入了解生命科學。 PubMed DOI

Rapid Adaptation of Chemical Named Entity Recognition Using Few-Shot Learning and LLM Distillation.
利用少量學習與大型語言模型蒸餾，快速適應化學命名實體辨識 J Chem Inf Model 2025-05-01

這篇研究提出一種少量樣本NER模型，能用很少的標註例子就學會辨識新的化學實體。透過度量學習，把現有化學知識轉移到像催化這種資料少的領域，即使每類只用5個例子也有好表現。研究也證明LLM能產生訓練資料，讓NER系統更快適應專業化學領域。 PubMed DOI

A Perspective on Foundation Models in Chemistry.
化學領域中 Foundation Models 的觀點 JACS Au 2025-05-02

基礎模型像 ChatGPT 這類 AI，現在也被用在化學領域，幫忙解決材料發現、結構和性質預測等難題。這些模型能克服資料不足和泛化能力差的問題，展現很大潛力。這篇綜述整理了最新進展、趨勢，還有未來在化學研究上的發展方向。 PubMed DOI

Chemical Language Model Linker: blending text and molecules with modular adapters.
化學語言模型連結器：以模組化轉接器融合文本與分子 ArXiv 2025-05-05

作者提出 ChemLML 這個輕量級方法，把現有的文字和分子模型結合起來，能直接從文字描述產生新分子，不用從零訓練模型，省下不少算力。分子表示法選擇很重要，SMILES 通常比 SELFIES 表現更好。作者也討論資料集問題，並證明 ChemLML 在藥物分子生成和評估上很有成效。 PubMed

Effective and Explainable Molecular Property Prediction by Chain-of-Thought Enabled Large Language Models and Multi-Modal Molecular Information Fusion.
由Chain-of-Thought強化大型語言模型與多模態分子資訊融合實現有效且可解釋的分子性質預測 J Chem Inf Model 2025-05-20

這篇論文提出LLM-MPP新方法，結合大型語言模型和多種分子資料（像SMILES、分子圖和文字描述），用於新藥開發。透過chain-of-thought推理、cross-attention和對比學習，有效整合多模態資訊，提升預測準確度和可解釋性。實驗結果顯示，LLM-MPP在九個資料集上表現都比現有方法更好，突破了多模態整合和可解釋性的瓶頸。 PubMed DOI

XMolCap: Advancing Molecular Captioning through Multimodal Fusion and Explainable Graph Neural Networks.
XMolCap：透過多模態融合與可解釋圖神經網路推進分子描述技術 IEEE J Biomed Health Inform 2025-05-23

XMolCap 是一套全新分子描述系統，結合分子影像、SMILES 字串和圖結構，透過多模態融合技術，能產生可解釋又精確的分子描述。它基於 BioT5 架構，並用 SwinOCSR、SciBERT、GIN-MoMu 等模型萃取特徵，表現優於現有方法，對新藥開發很有幫助。程式碼已開源，有興趣可到 GitHub 查看。 PubMed DOI

GICL: A Cross-Modal Drug Property Prediction Framework Based on Knowledge Enhancement of Large Language Models.
GICL：基於大型語言模型知識增強的跨模態藥物性質預測框架 J Chem Inf Model 2025-05-28

這篇研究提出GICL框架，把藥物SMILES字串的大型語言模型嵌入和分子影像結合，利用跨模態對比學習整合資訊。這種融合方式讓GICL在藥物性質預測（ADMET）上表現領先，還能提供可解釋的分析，有助於提升藥物開發效率。 PubMed DOI

原始文章

站上相關主題文章列表