Extracting structured data from organic synthesis procedures using a fine-tuned large language model.
使用微調的大型語言模型從有機合成程序中提取結構化數據。 Digit Discov 2024-08-19

這項研究強調了數據驅動和機器學習在有機化學中的重要性，特別是在將文獻中的非結構化文本轉為結構化反應數據。這對於提升反應預測和條件建議非常關鍵。研究人員微調了一個大型語言模型，從有機合成程序中提取反應信息，並依據開放反應數據庫格式化。經過微調後，模型在生成完整記錄時達到91.25%的準確率，單個數據欄位則為92.25%。研究還探討了模型的局限性及其在特定任務上的表現。 PubMed DOI

Harnessing Large Language Models to Collect and Analyze Metal-Organic Framework Property Data Set.
利用大型語言模型收集和分析金屬有機框架性質數據集。 J Am Chem Soc 2025-01-21

這項研究旨在從科學文獻中有效收集金屬有機框架（MOFs）的實驗數據，以解決稀缺數據的問題，並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型，系統化提取並整理MOF數據，成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係，並創建合成條件推薦系統，為優化合成策略提供實用工具，顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

MaTableGPT: GPT-Based Table Data Extractor from Materials Science Literature.
MaTableGPT：基於 GPT 的材料科學文獻表格數據提取器。 Adv Sci (Weinh) 2025-01-24

這項研究介紹了MaTableGPT，一個基於GPT的工具，專門從材料科學文獻中的表格提取數據，特別針對水分解催化劑。傳統的提取方法因表格格式多樣而不夠有效。MaTableGPT透過改進的數據表示和分割策略，提升理解能力，提取準確率高達96.8%。研究比較了零樣本、少樣本和微調學習方法，發現少樣本學習在準確性和成本上達到最佳平衡，提取準確率超過95%。此外，MaTableGPT建立的數據庫為催化劑的過電位和元素利用率提供了重要見解。 PubMed DOI

Harnessing large language models for data-scarce learning of polymer properties.
利用大型語言模型進行聚合物性質的數據稀缺學習。 Nat Comput Sci 2025-02-10

這項研究提出了一種新方法來訓練大型語言模型（LLMs）進行材料建模，解決了實驗數據不足的問題。研究者利用基於物理的訓練流程生成大量合成數據，建立穩固的初始模型，然後再用有限的實驗數據進行微調。訓練分為兩個階段：先用豐富但準確性較低的合成數據進行預訓練，再用稀缺的實驗數據微調。這種方法在聚合物可燃性指標的建模中顯示出有效性，特別是在圓錐量熱計數據不足的情況下，突顯了預訓練的重要性。 PubMed DOI

LLM-Driven Synthesis Planning for Quantum Dot Materials Development.
基於 LLM 的量子點材料開發合成規劃。 J Chem Inf Model 2025-03-12

大型語言模型在材料科學的應用大幅推進了新材料的開發。我們提出了一個新框架，利用這些模型來優化合成特定性質的量子點材料的實驗程序。這個方法結合了合成協議生成模型和性質預測模型，並基於開源的大型語言模型進行微調，使用我們的合成數據進行訓練。過程中，首先生成針對特定性質的合成協議，然後用性質預測模型驗證其有效性。我們的實驗中產生了六種合成協議，其中三個成功改善了多項性質，顯示出我們框架在合成規劃中的有效性及多目標優化的潛力。 PubMed DOI

Comprehensive testing of large language models for extraction of structured data in pathology.
大型語言模型在病理學中結構化數據提取的綜合測試。 Commun Med (Lond) 2025-03-31

病理科部門產生大量非結構化數據，主要以自由文本的診斷報告形式存在，轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務，但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集，評估了六個語言模型的提取能力。研究顯示，開源模型在提取結構化數據方面的精度與專有模型相當，且具成本效益和隱私保護潛力，為醫療機構提供了重要見解。 PubMed DOI

An Evaluation of Large Language Models for Supplementing a Food Extrusion Dataset.
用於補充食品擠壓數據集之大型語言模型的評估 Foods 2025-04-26

目前食品擠壓研究缺乏標準化資料集，影響進展。作者建立人工整理的資料集，並測試大型語言模型（LLMs）自動擷取文獻資料的能力。結果發現，LLMs 雖然偶有錯誤或遺漏，但能大幅減少人工整理時間，是輔助建立資料集、加速研究的有力工具。 PubMed DOI

Nanophotonic device design based on large language models: multilayer and metasurface examples.
基於大型語言模型的奈米光子元件設計：多層結構與超表面範例 Nanophotonics 2025-04-28

**重點摘要：** 大型語言模型（LLMs）可以協助非專業人士設計奈米光子元件，例如多層薄膜和超表面，透過對話互動來模擬光學反應並產生最佳化設計。將LLMs用相關資料進行微調後，能進一步提升它們依照需求產生設計的能力，讓奈米光子設計變得更快速、更容易上手。 PubMed DOI

Extracting Material Property Measurements from Scientific Literature with Limited Annotations.
從有限註解的科學文獻中擷取材料性質測量數據 J Chem Inf Model 2025-05-13

這篇研究發現，用GPT-4o這類大型語言模型，只要給很少範例，就能準確從科學文獻中擷取材料性質資料，還能用資料增強法提升傳統模型表現。研究也分析了錯誤和資料品質，幫助了解實際應用時會遇到的問題。 PubMed DOI

Design of CO<sub>2</sub>-philic molecular units with large language models.
利用大型語言模型設計CO₂-philic分子單元 Chem Commun (Camb) 2025-06-11

這項研究用大型語言模型（LLM）設計新型二氧化碳捕捉分子，並結合DFT計算篩選潛力材料。結果顯示，LLM不只產生可行分子，還提出創新設計方法，證明AI能有效輔助化學研究，提升碳捕捉材料的開發效率。 PubMed DOI

原始文章

站上相關主題文章列表