原始文章

RetChemQA是一個新推出的基準數據集,專門用來評估機器學習模型在網狀化學領域的表現。它包含約90,000對問答,問題分為單跳和多跳,來源於約2,530篇知名出版商的研究論文。這個數據集是利用OpenAI的GPT-4 Turbo生成的,具備強大的語言處理能力。此外,RetChemQA還包含合成條件的數據集,旨在提供一個全面的平台,幫助開發和評估先進的機器學習算法,反映網狀化學的科學複雜性。 PubMed DOI


站上相關主題文章列表

人工智慧工具如GPT-4在化學和材料研究中扮演重要角色。雖然GPT-4有進展,但科學界尚未廣泛使用大型語言模型。研究評估了六個開源的大型語言模型在金屬有機骨架(MOFs)研究中的表現,其中Llama2-7B和ChatGLM2-6B表現優異。高參數版本的模型表現更佳。 PubMed DOI

科學文件中的化學資訊可用來深入了解。自動提取方法目前使用機器學習,但性能、可轉移性和擴展性有限。ChemREL是一個表現優異的新工具,能高準確地提取熔點和LD50值。比現有方法和GPT-4更好,整體F1分數達95.4%。ChemREL是開源的,旨在增進化學資訊提取,促進新發現。 PubMed DOI

ChatGPT-4是一個先進的AI模型,經過訓練後能夠產生有連貫上下文的文字。它可以回答問題,對材料科學、合成化學和藥物發現等領域有幫助。最近的研究中,ChatGPT-4成功解決了分析化學、光譜學、生物影像超分辨率和電化學等問題。儘管能夠自主完成一些任務,但較複雜的任務仍需要人類幫助。這個AI能夠生成MATLAB代碼,即使原作者未提供代碼。研究強調驗證和反饋的重要性,確保科學研究的正確性和透明度,尤其是在高級數據處理方面。 PubMed DOI

EnzChemRED是一個新資料集,旨在透過自然語言處理技術,提升從科學文獻中提取酶相關資訊的能力。該資料集包含1,210篇專家策劃的PubMed摘要,並標註了酶及其化學反應的識別碼。研究顯示,使用EnzChemRED微調的語言模型在識別蛋白質和化學物質方面表現優異,F1分數達86.30%。此外,這些模型在提取化學轉換和相關酶的能力也相當強大,為酶功能的策劃提供了有力支持。 PubMed DOI

大型語言模型(LLM)技術為合成化學帶來了新機會。我們開發了一個基於LLM的反應開發框架(LLM-RDF),利用GPT-4簡化化學合成任務。這個框架包含六個專門的代理,能執行文獻搜尋、實驗設計、硬體執行等功能。我們還創建了一個網頁應用程式,讓化學家能用自然語言與自動化實驗平台互動,無需編碼技能。LLM-RDF在銅/TEMPO催化的醇類氧化反應中展現了其完整的合成開發能力,並在多種反應中證明了其廣泛適用性。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)從專利文件中提取高品質的化學反應數據,以解決人工智慧設計新分子的合成挑戰。結果顯示,這種自動化方法能增加26%的反應數據,優於以往的努力。此外,研究也指出反應挖掘中的挑戰並提出解決方案。分析顯示,先前的數據集存在不準確的問題,強調新管道在提升化學反應數據庫的數量和質量方面的潛力,未來可能促進更準確的合成預測模型。 PubMed DOI

這項研究探討了微調大型語言模型(LLMs)在預測化學性質上的潛力,並指出其相較於傳統機器學習方法的優勢。研究中微調了GPT-J-6B、Llama-3.1-8B和Mistral-7B等模型,結果顯示在簡單的分類任務中,LLMs的表現通常優於傳統模型。將化學數據集轉換為LLM訓練格式相對簡單,即使是小型數據集也能有效預測。這些發現顯示,LLMs有潛力提升化學研究的實驗和計算效率,幫助研究者減少不必要的工作。 PubMed DOI

ScholarChemQA 是一個新推出的學術化學問答數據集,旨在評估語言模型在化學領域的表現。這個數據集來自化學論文,問題取自論文標題,並根據摘要提供多選答案。為了應對數據不均和未標記數據的挑戰,開發了 ChemMatch 模型,能有效回答化學問題。實驗顯示,儘管大型語言模型已有進展,但在化學任務上仍有改進空間。ChemMatch 在基準測試中表現優於其他模型,顯示其有效性。更多資訊可參考 GitHub 連結:https://github.com/iriscxy/chemmatch。 PubMed DOI

這項研究旨在從科學文獻中有效收集金屬有機框架(MOFs)的實驗數據,以解決稀缺數據的問題,並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型,系統化提取並整理MOF數據,成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係,並創建合成條件推薦系統,為優化合成策略提供實用工具,顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

這項研究介紹了MaTableGPT,一個基於GPT的工具,專門從材料科學文獻中的表格提取數據,特別針對水分解催化劑。傳統的提取方法因表格格式多樣而不夠有效。MaTableGPT透過改進的數據表示和分割策略,提升理解能力,提取準確率高達96.8%。研究比較了零樣本、少樣本和微調學習方法,發現少樣本學習在準確性和成本上達到最佳平衡,提取準確率超過95%。此外,MaTableGPT建立的數據庫為催化劑的過電位和元素利用率提供了重要見解。 PubMed DOI