PharmaBench: Enhancing ADMET benchmarks with large language models.
PharmaBench：利用大型語言模型增強 ADMET 基準。 Sci Data 2024-09-10

準確預測ADMET（吸收、分佈、代謝、排泄和毒性）特性對藥物開發非常重要，能幫助選擇具良好藥物動力學及降低毒性的化合物。目前的ADMET數據集因樣本數量少及代表性不足而受限。為了解決這些問題，我們提出了一個多代理數據挖掘系統，利用大型語言模型識別14,401個生物測試的實驗條件，並整合不同來源的數據，最終創建了PharmaBench，包含156,618條原始條目，旨在支持藥物發現相關的AI模型開發。 PubMed DOI

An instruction dataset for extracting quantum cascade laser properties from scientific text.
從科學文本中提取量子級聯激光特性的指令數據集。 Data Brief 2025-01-20

量子級聯雷射（QCL）是一種高效能的半導體雷射，但其設計複雜，需結構化數據來理解其性能。現有數據多為非結構化，主要來自科學文獻，資訊提取技術能協助整理這些數據。開發針對QCL特性的機器學習演算法時，缺乏高品質訓練數據是一大挑戰。雖然大型語言模型（LLMs）在提取材料特性上有潛力，但在特定領域仍有困難。本文介紹了一個新數據集，透過GPT-3.5增強科學文章的範例句子，包含1300個註釋範例，旨在提升LLMs在QCL特性提取的表現。 PubMed DOI

Harnessing Large Language Models to Collect and Analyze Metal-Organic Framework Property Data Set.
利用大型語言模型收集和分析金屬有機框架性質數據集。 J Am Chem Soc 2025-01-21

這項研究旨在從科學文獻中有效收集金屬有機框架（MOFs）的實驗數據，以解決稀缺數據的問題，並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型，系統化提取並整理MOF數據，成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係，並創建合成條件推薦系統，為優化合成策略提供實用工具，顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

MaTableGPT: GPT-Based Table Data Extractor from Materials Science Literature.
MaTableGPT：基於 GPT 的材料科學文獻表格數據提取器。 Adv Sci (Weinh) 2025-01-24

這項研究介紹了MaTableGPT，一個基於GPT的工具，專門從材料科學文獻中的表格提取數據，特別針對水分解催化劑。傳統的提取方法因表格格式多樣而不夠有效。MaTableGPT透過改進的數據表示和分割策略，提升理解能力，提取準確率高達96.8%。研究比較了零樣本、少樣本和微調學習方法，發現少樣本學習在準確性和成本上達到最佳平衡，提取準確率超過95%。此外，MaTableGPT建立的數據庫為催化劑的過電位和元素利用率提供了重要見解。 PubMed DOI

MechBERT: Language Models for Extracting Chemical and Property Relationships about Mechanical Stress and Strain.
MechBERT：用於提取機械應力和應變的化學及性質關係的語言模型。 J Chem Inf Model 2025-01-31

語言模型正在改變材料感知的自然語言處理，透過從非結構化文本中提取豐富的上下文資訊，超越傳統的信息提取方式。小型語言模型在特定領域的問答任務中，尤其是材料科學，表現優於大型語言模型（LLMs）。我們介紹了MechBERT模型，專注於理解材料中的機械應力和應變，並利用BERT架構進行預訓練和微調。評估結果顯示，MechBERT在特定領域和一般問答任務中表現出色，且處理速度更快，數據需求更少，提升了運營效率與能源可持續性。 PubMed DOI

DiMB-RE: mining the scientific literature for diet-microbiome associations.
DiMB-RE：挖掘科學文獻以尋找飲食-微生物組的關聯。 J Am Med Inform Assoc 2025-03-28

這項研究開發了DiMB-RE，專注於飲食與微生物組的關聯，旨在增進對健康影響的理解並支持個人化營養。DiMB-RE包含15種實體類型和13種關係類型，共有14,450個實體和4,206個關係，來自165篇文獻。經過微調的自然語言處理模型在實體識別和關係提取上表現良好，F1分數分別為0.800和0.445。研究顯示，結果部分的註釋有助於改善關係提取。DiMB-RE是同類中最大的語料庫，相關資源可在GitHub上找到。 PubMed DOI

An Evaluation of Large Language Models for Supplementing a Food Extrusion Dataset.
用於補充食品擠壓數據集之大型語言模型的評估 Foods 2025-04-26

目前食品擠壓研究缺乏標準化資料集，影響進展。作者建立人工整理的資料集，並測試大型語言模型（LLMs）自動擷取文獻資料的能力。結果發現，LLMs 雖然偶有錯誤或遺漏，但能大幅減少人工整理時間，是輔助建立資料集、加速研究的有力工具。 PubMed DOI

Empowering Generalist Material Intelligence with Large Language Models.
以大型語言模型賦能通用材料智能 Adv Mater 2025-05-12

大型語言模型正帶動材料科學革新，讓自動化材料發現成真，像是資料擷取、性質預測都更有效率。不過，目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度，才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

Extracting Material Property Measurements from Scientific Literature with Limited Annotations.
從有限註解的科學文獻中擷取材料性質測量數據 J Chem Inf Model 2025-05-13

這篇研究發現，用GPT-4o這類大型語言模型，只要給很少範例，就能準確從科學文獻中擷取材料性質資料，還能用資料增強法提升傳統模型表現。研究也分析了錯誤和資料品質，幫助了解實際應用時會遇到的問題。 PubMed DOI

Ontology-conformal recognition of materials entities using language models.
使用語言模型進行本體一致性的材料實體辨識 Sci Rep 2025-05-27

這項研究比較GPT-4等大型語言模型，和專為材料科學設計、經過微調的模型（如MatSciBERT、DeBERTa）在材料疲勞資料集上的命名實體辨識能力。結果顯示，針對任務微調的模型表現明顯較佳，基礎模型的上下文學習效果則高度依賴範例品質。領域預訓練對提升NER表現非常重要。 PubMed DOI

原始文章

站上相關主題文章列表