Harnessing Large Language Models to Collect and Analyze Metal-Organic Framework Property Data Set.
利用大型語言模型收集和分析金屬有機框架性質數據集。 J Am Chem Soc 2025-01-21

這項研究旨在從科學文獻中有效收集金屬有機框架（MOFs）的實驗數據，以解決稀缺數據的問題，並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型，系統化提取並整理MOF數據，成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係，並創建合成條件推薦系統，為優化合成策略提供實用工具，顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

Using Large Language Model to Optimize Protein Purification: Insights from Protein Structure Literature Associated with Protein Data Bank.
利用大型語言模型優化蛋白質純化：來自與蛋白質數據庫相關的蛋白質結構文獻的見解。 Adv Sci (Weinh) 2025-02-20

我們開發了一個自動化工具，利用大型語言模型（LLM）來簡化從超過81,000篇與蛋白質資料庫（PDB）相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰，因為表達條件和純化策略的變化常常耗時。主要發現包括：Tris緩衝液最常用，聚組氨酸標籤佔主導，最佳表達溫度為16-20 °C，誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI

Automated Retrosynthesis Planning of Macromolecules Using Large Language Models and Knowledge Graphs.
使用大型語言模型和知識圖譜的巨分子自動逆合成規劃。 Macromol Rapid Commun 2025-02-27

這個系統透過整合大型語言模型（LLMs）和知識圖譜，提升材料化學中聚合物科學的合成路徑識別。它解決了大分子命名的複雜性，並自動化文獻檢索、反應數據提取等任務。主要特點包括： 1. **數據提取與結構化**：利用LLMs提取化學物質名稱，並組織成知識圖譜。 2. **逆合成路徑構建**：建立逆合成路徑樹，探索多種合成路徑。 3. **多分支反應路徑搜尋演算法（MBRPS）**：識別所有有效的多分支反應路徑，擴展逆合成規劃。 4. **聚酰亞胺合成應用**：成功生成全面的逆合成路徑樹，推薦優化路徑。這項工作在自動化大分子逆合成規劃上有重大進展。 PubMed DOI

[Databases, knowledge bases, and large models for biomanufacturing].
生物製造的資料庫、知識庫和大型模型 Sheng Wu Gong Cheng Xue Bao 2025-04-02

生物製造是一種創新技術，結合生物學、化學和工程，利用可再生資源和生物體透過發酵生產商品。相較於傳統石油化學過程，這種方法能顯著減少二氧化碳排放、降低能源消耗及成本。隨著系統生物學、合成生物學和生物資訊學的進步，加上人工智慧和高效能計算的應用，生物製造正朝向數據驅動的方向發展。本文回顧相關數據庫和大型語言模型的最新進展，探討未來挑戰及技術創新，期望能激發更多科學研究。 PubMed DOI

scDrugMap: Benchmarking Large Foundation Models for Drug Response Prediction.
scDrugMap：大型基礎模型於藥物反應預測的基準評估 ArXiv 2025-05-19

scDrugMap 是首個針對單細胞藥物反應預測的大型基準評測工具，支援 Python CLI 和網頁操作。它評比了 10 種模型，涵蓋 36 個資料集、超過 32 萬細胞。結果顯示 scFoundation 整體表現最佳，UCE 和 scGPT 在特定情境也很優秀。scDrugMap 平台操作簡單，對藥物開發和研究很有幫助。 PubMed

M<sup>3</sup>-20M: A large-scale multi-modal molecule dataset for AI-driven drug design and discovery.
M<sup>3</sup>-20M：用於AI驅動藥物設計與發現的大規模多模態分子資料集 J Bioinform Comput Biol 2025-06-10

這篇論文推出 M³-20M 超大多模態分子資料集，收錄超過兩千萬個分子，規模比以往大71倍，結合 SMILES、2D/3D 結構、分子性質和文字描述（部分由 GPT-3.5 產生）。實驗證明，用這資料集訓練的模型在分子生成和性質預測上表現更好，對 AI 輔助藥物設計很有幫助。資料集連結：https://github.com/bz99bz/M-3 PubMed DOI

原始文章

站上相關主題文章列表