量子級聯雷射(QCL)是一種高效能的半導體雷射,但其設計複雜,需結構化數據來理解其性能。現有數據多為非結構化,主要來自科學文獻,資訊提取技術能協助整理這些數據。開發針對QCL特性的機器學習演算法時,缺乏高品質訓練數據是一大挑戰。雖然大型語言模型(LLMs)在提取材料特性上有潛力,但在特定領域仍有困難。本文介紹了一個新數據集,透過GPT-3.5增強科學文章的範例句子,包含1300個註釋範例,旨在提升LLMs在QCL特性提取的表現。 PubMed DOI ♡
這項研究強調了數據驅動和機器學習在有機化學中的重要性,特別是在將文獻中的非結構化文本轉為結構化反應數據。這對於提升反應預測和條件建議非常關鍵。研究人員微調了一個大型語言模型,從有機合成程序中提取反應信息,並依據開放反應數據庫格式化。經過微調後,模型在生成完整記錄時達到91.25%的準確率,單個數據欄位則為92.25%。研究還探討了模型的局限性及其在特定任務上的表現。 PubMed DOI
這項研究旨在從科學文獻中有效收集金屬有機框架(MOFs)的實驗數據,以解決稀缺數據的問題,並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型,系統化提取並整理MOF數據,成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係,並創建合成條件推薦系統,為優化合成策略提供實用工具,顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI
這項研究介紹了MaTableGPT,一個基於GPT的工具,專門從材料科學文獻中的表格提取數據,特別針對水分解催化劑。傳統的提取方法因表格格式多樣而不夠有效。MaTableGPT透過改進的數據表示和分割策略,提升理解能力,提取準確率高達96.8%。研究比較了零樣本、少樣本和微調學習方法,發現少樣本學習在準確性和成本上達到最佳平衡,提取準確率超過95%。此外,MaTableGPT建立的數據庫為催化劑的過電位和元素利用率提供了重要見解。 PubMed DOI
這項研究提出了一種新方法來訓練大型語言模型(LLMs)進行材料建模,解決了實驗數據不足的問題。研究者利用基於物理的訓練流程生成大量合成數據,建立穩固的初始模型,然後再用有限的實驗數據進行微調。訓練分為兩個階段:先用豐富但準確性較低的合成數據進行預訓練,再用稀缺的實驗數據微調。這種方法在聚合物可燃性指標的建模中顯示出有效性,特別是在圓錐量熱計數據不足的情況下,突顯了預訓練的重要性。 PubMed DOI
大型語言模型在材料科學的應用大幅推進了新材料的開發。我們提出了一個新框架,利用這些模型來優化合成特定性質的量子點材料的實驗程序。這個方法結合了合成協議生成模型和性質預測模型,並基於開源的大型語言模型進行微調,使用我們的合成數據進行訓練。 過程中,首先生成針對特定性質的合成協議,然後用性質預測模型驗證其有效性。我們的實驗中產生了六種合成協議,其中三個成功改善了多項性質,顯示出我們框架在合成規劃中的有效性及多目標優化的潛力。 PubMed DOI
病理科部門產生大量非結構化數據,主要以自由文本的診斷報告形式存在,轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務,但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集,評估了六個語言模型的提取能力。研究顯示,開源模型在提取結構化數據方面的精度與專有模型相當,且具成本效益和隱私保護潛力,為醫療機構提供了重要見解。 PubMed DOI
目前食品擠壓研究缺乏標準化資料集,影響進展。作者建立人工整理的資料集,並測試大型語言模型(LLMs)自動擷取文獻資料的能力。結果發現,LLMs 雖然偶有錯誤或遺漏,但能大幅減少人工整理時間,是輔助建立資料集、加速研究的有力工具。 PubMed DOI
**重點摘要:** 大型語言模型(LLMs)可以協助非專業人士設計奈米光子元件,例如多層薄膜和超表面,透過對話互動來模擬光學反應並產生最佳化設計。將LLMs用相關資料進行微調後,能進一步提升它們依照需求產生設計的能力,讓奈米光子設計變得更快速、更容易上手。 PubMed DOI
這篇研究發現,用GPT-4o這類大型語言模型,只要給很少範例,就能準確從科學文獻中擷取材料性質資料,還能用資料增強法提升傳統模型表現。研究也分析了錯誤和資料品質,幫助了解實際應用時會遇到的問題。 PubMed DOI
這項研究用大型語言模型(LLM)設計新型二氧化碳捕捉分子,並結合DFT計算篩選潛力材料。結果顯示,LLM不只產生可行分子,還提出創新設計方法,證明AI能有效輔助化學研究,提升碳捕捉材料的開發效率。 PubMed DOI