原始文章

MaterioMiner 資料集是一個重要的資源,結合了材料力學的知識與文本數據。它擁有一個連結的本體,將相關概念映射到文獻中。資料集來自四篇出版物,包含179個類別的標註,共有2,191個實體由三位評審標註,便於評估標註一致性。此外,該資料集支持材料科學中組成、過程、微結構和性質的關係表示。這項研究顯示了微調預訓練語言模型進行命名實體識別的潛力,為材料語言模型和知識圖譜的發展鋪路。 PubMed DOI


站上相關主題文章列表

在自然語言處理(NLP)訓練中,擁有有語義標註的文本數據集很關鍵。建立自訂數據集對特定任務非常重要,尤其是在醫學數據處理等非英語語言中。建議使用預先訓練的大型語言模型來提升訓練效率。我們透過建立德語文本的醫學命名實體識別(NER)模型自訂數據集GPTNERMED來展示這一點。可在 https://github.com/frankkramer-lab/GPTNERMED 找到更多資訊。 PubMed DOI

研究人員透過手動標註和深度學習技術,在生醫文獻中成功提取遺傳疾病相關資訊。他們標註了400篇文章,並達到高水準的準確度。使用BERT和DistilBERT模型進行訓練和測試,取得了優異的實體提取成果,特別是在變異實體的辨識上表現優異,與最先進的模型相當。 PubMed DOI

討論了利用預先訓練的語言模型從文本中提取科學知識的方法,包括命名實體識別和關係提取,並在材料化學任務中展示。可從句子或段落中擷取資訊,輸出為簡單英文句子或JSON格式。這方法可直接靈活地從研究論文中建立科學知識數據庫。 PubMed DOI

ChatExtract 方法提出了一種簡單有效的方式,利用對話式大型語言模型(LLMs)自動從研究論文中提取數據。透過設計好的提示應用於LLM,ChatExtract 能夠確保數據正確性,同時透過後續問題來辨識和提取數據。測試結果顯示,與GPT-4等對話式LLMs相比,ChatExtract 的精確度和召回率接近90%。這種方法利用了對話模型中的信息保留、冗餘性和引入不確定性,以提高準確性。ChatExtract 在各個領域中進行數據提取有著巨大的潛力,就像在建立金屬玻璃和高熵合金數據庫時所展示的那樣。 PubMed DOI

線上文章提供價值洞察,手動編碼可靠但限制大數據分析。自動文本分析近似人評估,大型語言模型如GPT-4表現佳。模型複雜度和性能權衡對科學家重要。 PubMed DOI

研究利用機器學習和自然語言處理技術,從科學文獻中提取二氧化碳電催化相關資訊。建立開源語料庫,包含基準和擴展語料庫,並開發精煉大型語言模型。目的是透過現代計算方法,促進發現新型且有效的電催化劑。 PubMed DOI

自動生成知識圖譜能有效提升資訊的組織性與可及性,並加速發現與創新。本研究介紹了一個利用大型語言模型在主動學習框架下創建大規模知識圖譜的流程,專注於生鮮食品、成分與化學物質的關係。透過迭代的主動學習策略,從155,260篇科學論文中提取了230,848個食品-化學成分關係,其中46%為新發現。此外,還利用鏈接預測模型發掘了355個新的食品-化學關係,顯示出強烈的發現潛力。這項研究展示了如何透過文獻進行大規模自動學習,促進實際應用的發展。 PubMed DOI

EnzChemRED是一個新資料集,旨在透過自然語言處理技術,提升從科學文獻中提取酶相關資訊的能力。該資料集包含1,210篇專家策劃的PubMed摘要,並標註了酶及其化學反應的識別碼。研究顯示,使用EnzChemRED微調的語言模型在識別蛋白質和化學物質方面表現優異,F1分數達86.30%。此外,這些模型在提取化學轉換和相關酶的能力也相當強大,為酶功能的策劃提供了有力支持。 PubMed DOI

人工智慧(AI)的發展推動了應用材料的研究,但常常只聚焦於文獻中常見的材料,限制了候選材料的多樣性。為了解決這個問題,研究團隊建立了一個包含1,453,493個自然語言-材料敘述的數據集,來自多個資料庫,確保元素的均衡代表性。這些敘述經過人類專家和GPT-4模型的評估,結果顯示兩者評分相似,但人類在內容深度上有所不足。這種數據與大型語言模型的結合,為AI在固態材料的探索和發現提供了新機會。 PubMed DOI

這項研究提出了雙策略材料智能設計框架(DSMID),旨在解決材料科學中小型數據集的挑戰,提升機器學習模型的準確性。框架結合了兩種方法:對抗性領域自適應嵌入生成網絡(AAEG),能在僅有90個數據點的情況下改善材料特徵化;自動化材料篩選與評估管道(AMSEP),利用大型語言模型高效篩選合金設計。實驗顯示,該框架在新型共晶高熵合金的識別和製備上表現出色,顯著提升了材料設計的效率與成本效益。 PubMed DOI