原始文章

這項研究評估大型語言模型(LLMs)在從科學文獻中提取生態數據的表現,並與人類審稿人進行比較。結果顯示,LLMs提取相關數據的速度超過50倍,對於離散和類別數據的準確率超過90%。不過,它們在某些定量數據的提取上仍有困難。雖然LLMs能顯著提升建立大型生態數據庫的效率,但仍需額外的質量保證措施來確保數據的完整性。 PubMed DOI


站上相關主題文章列表

人工智慧,特別是大型語言模型(LLMs),現在被廣泛運用,因為能跟人類溝通。透過大量網路資料訓練,LLMs能產生各種專業文本。研究指出,GPT-4能在不到一小時內寫出完整的藥學手稿。雖然LLMs在科學研究有潛力,但仍需要人類參與,如參考文獻和數據驗證。該研究探討了將LLMs融入科學研究的優勢和挑戰。 PubMed DOI

使用大型語言模型(LLMs)如Claude 2,相較於傳統方法,能夠明顯提升證據綜合中的數據提取效率和準確性。Claude 2在概念驗證研究中展現出96.3%的整體準確性,並具有高的測試-重測信度。此模型易用,操作上無需專業知識或標記訓練數據,有潛力增進數據提取過程。 PubMed DOI

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

系統性證據綜合,如系統性回顧和地圖,對於總結知識並支持各個領域的決策至關重要。然而,在保育領域進行這些綜合練習可能會耗時且昂貴。使用大型語言模型(LLMs)和人工智慧(AI)在加速和改善證據綜合過程方面表現出潛力,尤其是在像保育科學這樣資金不足的領域。 PubMed DOI

利用大型語言模型(LLMs)自動篩選相關出版物進行文獻回顧是有潛力但複雜的任務。已開發Python腳本,利用LLMs評估出版物相關性。不同LLMs在不同數據集上表現不同,靈敏度/特異性範圍從81.93%/75.19%到97.58%/19.12%。修改設置如提示結構和Likert量表範圍,對性能有顯著影響。LLMs的分類器或許可用於評估出版物相關性,但在系統性文獻回顧和更廣泛影響方面的應用尚不確定。未來研究可能會更廣泛地採用LLMs來評估出版物。 PubMed DOI

研究比較了Claude 2和GPT-4兩個大型語言模型在提取文章數據的表現。Claude 2使用PDF解析插件,準確率高達96.3%,GPT-4則為68.8%。兩者皆能辨識缺失數據並提取未明確報告的資訊。在提供文本時,兩者表現皆相當準確。研究指出語言模型在數據提取上的潛力,但也強調了準確的PDF解析和人工驗證的必要性。 PubMed DOI

研究發現使用大型語言模型(LLM)在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異,速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率,減少工作負擔。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI

歐洲食品安全局(EFSA)正在努力改善化學風險評估,特別是利用來自科學文獻的非結構化數據。'AI4NAMS'專案探討使用大型語言模型(LLMs),如GPT系列,來提升基於新方法論(NAMs)的數據提取與整合。針對雙酚A(BPA)的案例研究中,微調的GPT-3模型(Curie)在提取任務上表現優於現成的模型(text-davinci-002和text-davinci-003),顯示微調的效果及技術進步對模型性能的提升有顯著貢獻,進一步推動AI在科學與監管領域的應用。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI