原始文章

這項研究比較GPT-4等大型語言模型,和專為材料科學設計、經過微調的模型(如MatSciBERT、DeBERTa)在材料疲勞資料集上的命名實體辨識能力。結果顯示,針對任務微調的模型表現明顯較佳,基礎模型的上下文學習效果則高度依賴範例品質。領域預訓練對提升NER表現非常重要。 PubMed DOI


站上相關主題文章列表

MaterioMiner 資料集是一個重要的資源,結合了材料力學的知識與文本數據。它擁有一個連結的本體,將相關概念映射到文獻中。資料集來自四篇出版物,包含179個類別的標註,共有2,191個實體由三位評審標註,便於評估標註一致性。此外,該資料集支持材料科學中組成、過程、微結構和性質的關係表示。這項研究顯示了微調預訓練語言模型進行命名實體識別的潛力,為材料語言模型和知識圖譜的發展鋪路。 PubMed DOI

這項研究旨在從科學文獻中有效收集金屬有機框架(MOFs)的實驗數據,以解決稀缺數據的問題,並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型,系統化提取並整理MOF數據,成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係,並創建合成條件推薦系統,為優化合成策略提供實用工具,顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

語言模型正在改變材料感知的自然語言處理,透過從非結構化文本中提取豐富的上下文資訊,超越傳統的信息提取方式。小型語言模型在特定領域的問答任務中,尤其是材料科學,表現優於大型語言模型(LLMs)。我們介紹了MechBERT模型,專注於理解材料中的機械應力和應變,並利用BERT架構進行預訓練和微調。評估結果顯示,MechBERT在特定領域和一般問答任務中表現出色,且處理速度更快,數據需求更少,提升了運營效率與能源可持續性。 PubMed DOI

這項研究提出了一種新方法來訓練大型語言模型(LLMs)進行材料建模,解決了實驗數據不足的問題。研究者利用基於物理的訓練流程生成大量合成數據,建立穩固的初始模型,然後再用有限的實驗數據進行微調。訓練分為兩個階段:先用豐富但準確性較低的合成數據進行預訓練,再用稀缺的實驗數據微調。這種方法在聚合物可燃性指標的建模中顯示出有效性,特別是在圓錐量熱計數據不足的情況下,突顯了預訓練的重要性。 PubMed DOI

基礎模型像 ChatGPT 這類 AI,現在也被用在化學領域,幫忙解決材料發現、結構和性質預測等難題。這些模型能克服資料不足和泛化能力差的問題,展現很大潛力。這篇綜述整理了最新進展、趨勢,還有未來在化學研究上的發展方向。 PubMed DOI

大型語言模型正帶動材料科學革新,讓自動化材料發現成真,像是資料擷取、性質預測都更有效率。不過,目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度,才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

這篇研究發現,用GPT-4o這類大型語言模型,只要給很少範例,就能準確從科學文獻中擷取材料性質資料,還能用資料增強法提升傳統模型表現。研究也分析了錯誤和資料品質,幫助了解實際應用時會遇到的問題。 PubMed DOI

這項研究發現,GPT-4 在從眼科病歷中辨識藥物名稱、用法和頻率的準確度,明顯優於 BERT 系列模型。GPT-4 的 F1 分數高達 0.962,而 BioBERT 只有 0.875,顯示大型語言模型在醫療資訊辨識上有很大潛力。 PubMed

細粒度實體辨識很難做,因為缺乏標註資料。這篇論文提出 FGER-GPT,利用 GPT 等大型語言模型,搭配階層式、多步驟推理,不用標註資料也能辨識細粒度實體。這方法能減少 LLM 產生幻覺的問題,在標準資料集上表現也很好,特別適合資源有限的實際應用。 PubMed DOI

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 PubMed DOI