原始文章

量子級聯雷射(QCL)是一種高效能的半導體雷射,但其設計複雜,需結構化數據來理解其性能。現有數據多為非結構化,主要來自科學文獻,資訊提取技術能協助整理這些數據。開發針對QCL特性的機器學習演算法時,缺乏高品質訓練數據是一大挑戰。雖然大型語言模型(LLMs)在提取材料特性上有潛力,但在特定領域仍有困難。本文介紹了一個新數據集,透過GPT-3.5增強科學文章的範例句子,包含1300個註釋範例,旨在提升LLMs在QCL特性提取的表現。 PubMed DOI


站上相關主題文章列表

ChatExtract 方法提出了一種簡單有效的方式,利用對話式大型語言模型(LLMs)自動從研究論文中提取數據。透過設計好的提示應用於LLM,ChatExtract 能夠確保數據正確性,同時透過後續問題來辨識和提取數據。測試結果顯示,與GPT-4等對話式LLMs相比,ChatExtract 的精確度和召回率接近90%。這種方法利用了對話模型中的信息保留、冗餘性和引入不確定性,以提高準確性。ChatExtract 在各個領域中進行數據提取有著巨大的潛力,就像在建立金屬玻璃和高熵合金數據庫時所展示的那樣。 PubMed DOI

材料科學家常透過實驗數據來改進材料性能,但整合非結構化數據卻是挑戰。一項新研究提出「結構化信息推斷」(SII)任務,運用自然語言處理(NLP)處理此問題。透過文獻摘要和整理,將設備級信息轉換為結構化數據。經LLaMA微調後,成功達到87.14%的F1分數,更新鈣鈦礦太陽能電池數據集,並開發出預測太陽能電池性能的回歸任務,顯示出有潛力的結果。該研究凸顯了大型語言模型在科學知識和材料開發上的潛力。 PubMed DOI

這個研究使用了一個名為BioInstruct的數據集,來提升生物醫學自然語言處理的大型語言模型表現。結果顯示,透過結合指導數據和多任務學習,以及有效微調參數,模型在各種BioNLP任務上有顯著改善。指導調整後的模型在生物醫學領域表現優異,尤其在相關任務微調時。BioInstruct數據集對提升BioNLP應用有重要價值。 PubMed DOI

人工智慧(AI)的發展推動了應用材料的研究,但常常只聚焦於文獻中常見的材料,限制了候選材料的多樣性。為了解決這個問題,研究團隊建立了一個包含1,453,493個自然語言-材料敘述的數據集,來自多個資料庫,確保元素的均衡代表性。這些敘述經過人類專家和GPT-4模型的評估,結果顯示兩者評分相似,但人類在內容深度上有所不足。這種數據與大型語言模型的結合,為AI在固態材料的探索和發現提供了新機會。 PubMed DOI

這項研究探討了生成式大型語言模型(LLMs),特別是GPT-4,在材料科學中提取帶隙數據的效果。研究將GPT-4與基於規則的ChemDataExtractor進行比較,從415篇隨機文章中提取資料。結果顯示,GPT-4的準確率達87.95%,遠超過ChemDataExtractor的51.08%。雖然GPT-4在處理複雜材料名稱上表現優異,但在準確識別帶隙值及類型方面仍有挑戰。研究強調透過錯誤分析來改善提示可提升準確性,顯示生成式LLMs在專業資訊提取上的潛力。 PubMed DOI

這項研究探討如何透過指令調整來提升大型語言模型(LLMs)在生物醫學自然語言處理任務的表現,像是命名實體識別(NER)、關係提取(RE)和醫學自然語言推理(NLI)。研究團隊使用約20萬個專注於指令的樣本來訓練模型,目的是達到與BioBERT和BioClinicalBERT等專門模型相當的效果。他們還分析了數據集的組成對模型表現的影響,並希望分享研究結果、代碼和模型,以促進該領域的進一步發展。 PubMed DOI

這篇教學評論探討大型語言模型(LLMs)在化學領域中,如何從非結構化的知識中提取結構化數據。傳統上,這需要大量人工和有限的自動化,但LLMs能讓非專家更有效地獲取數據。評論指出了應用LLMs的挑戰,並強調領域知識在驗證結果中的重要性。它還概述了當前的實踐,呼籲標準化指導方針,並提出將LLMs與化學專業知識結合的框架,幫助研究人員加速新化合物和材料的發現,應對社會挑戰。 PubMed DOI

這項研究旨在從科學文獻中有效收集金屬有機框架(MOFs)的實驗數據,以解決稀缺數據的問題,並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型,系統化提取並整理MOF數據,成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係,並創建合成條件推薦系統,為優化合成策略提供實用工具,顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

這項研究提出了一種新方法來訓練大型語言模型(LLMs)進行材料建模,解決了實驗數據不足的問題。研究者利用基於物理的訓練流程生成大量合成數據,建立穩固的初始模型,然後再用有限的實驗數據進行微調。訓練分為兩個階段:先用豐富但準確性較低的合成數據進行預訓練,再用稀缺的實驗數據微調。這種方法在聚合物可燃性指標的建模中顯示出有效性,特別是在圓錐量熱計數據不足的情況下,突顯了預訓練的重要性。 PubMed DOI

大型語言模型在材料科學的應用大幅推進了新材料的開發。我們提出了一個新框架,利用這些模型來優化合成特定性質的量子點材料的實驗程序。這個方法結合了合成協議生成模型和性質預測模型,並基於開源的大型語言模型進行微調,使用我們的合成數據進行訓練。 過程中,首先生成針對特定性質的合成協議,然後用性質預測模型驗證其有效性。我們的實驗中產生了六種合成協議,其中三個成功改善了多項性質,顯示出我們框架在合成規劃中的有效性及多目標優化的潛力。 PubMed DOI