AI-assisted evidence screening method for systematic reviews in environmental research: integrating ChatGPT with domain knowledge.

環境研究中系統評價的AI輔助證據篩選方法：將ChatGPT與領域知識整合。

<think> 嗯，我现在要分析这个PubMed的研究，标题是“AI-assisted evidence screening method for systematic reviews in environmental research: integrating ChatGPT with domain knowledge.”。摘要里说，环境科学的系统综述因为方法、术语和研究设计的多样性而具有挑战性。主要的局限性是资格标准的不一致应用影响了系统综述的可重复性和透明度。研究者开发并评估了一个AI辅助的证据筛选框架，使用了一个关于小川粪大肠杆菌浓度和土地利用与覆盖（LULC）关系的系统综述作为案例研究。他们微调了ChatGPT-3.5 Turbo模型，使用专家审核的数据来筛选标题、摘要和全文，涉及120篇文章。AI模型在标题/摘要审核中表现出显著一致性，在全文审核中则是中等一致性，并且与专家审核者保持一致性，说明它在结构化筛选辅助方面的潜力。研究结果表明，这个框架可以一致地应用资格标准，提高效率，降低劳动力和成本，并为环境研究中的LLMs集成提供信息。结合AI和领域知识为评估AI辅助证据筛选的可行性提供了一个探索性的步骤，特别是对于多样化、大规模和跨学科的研究。此外，AI辅助筛选在处理不同领域知识研究人员之间的分歧方面有潜力，尽管需要进一步验证。首先，我要从研究目的和假设开始。研究的主要目的是探讨AI在系统综述中的证据筛选是否有帮助，特别是在环境研究这样跨学科的领域。他们的假设应该是AI能够有效地帮助筛选，提高一致性和效率。接下来是方法和设计。他们用了ChatGPT-3.5 Turbo模型，并用专家审核的数据进行微调。然后用于标题、摘要和全文的筛选。这种方法合理，因为利用现有的AI模型来辅助筛选，可以节省时间和资源。优点是效率高，可能减少人为错误。缺点可能是AI模型需要大量高质量的训练数据，否则可能会出错，特别是在全文筛选时，因为全文信息更多，复杂度更高。然后是数据解释和结果。研究结果显示，在标题和摘要阶段，AI模型与专家有一致性很高，而在全文阶段则中等。这可能是因为全文信息更复杂，需要更多的上下文理解，而AI可能在这方面还不够完善。但总体来说，结果支持了他们的假设，即AI可以辅助筛选，特别是在初步阶段。关于局限性和偏见，研究中可能存在的局限性包括训练数据的质量和多样性。如果训练数据不够全面，AI可能会遗漏某些重要的研究。另外，跨学科的研究可能涉及多个领域的术语，AI需要足够的训练来理解这些术语，否则可能会出错。还有，研究只进行了单案例分析，可能需要更多的案例来验证结果的一致性。临床和未来研究的意义在于，AI辅助筛选可以提高系统综述的效率和一致性，特别是在处理大量文献时。未来的研究可以探索更复杂的AI模型，或者结合其他技术，如自然语言处理的其他工具，来进一步提高筛选的准确性。此外，考虑如何处理不同领域之间的分歧，可能需要开发更智能的AI系统，能够理解不同领域的术语和方法。其他可能的观点包括，是否AI可以完全替代人类专家，或者是否需要人类的监督来纠正AI的错误。此外，AI的可解释性也是一个问题，特别是在医疗或环境科学这样关键的领域，了解AI做出决策的依据非常重要。总的来说，这项研究展示了AI在系统综述中的潜力，但也指出了需要进一步研究和改进的方向，比如提高全文筛选的准确性，增加训练数据的多样性，以及开发更智能的AI模型来处理跨学科的复杂性。 </think> ### 研究目的與假設研究的主要目的是探討人工智慧（AI）在環境科學系統性回顧（Systematic Reviews, SRs）中的證據篩選是否能提供有效的輔助，特別是在跨學科的環境研究領域。研究假設AI可以提升證據篩選的一致性和效率，從而改善系統性回顧的可重複性和透明度。 ### 方法與設計研究採用了ChatGPT-3.5 Turbo模型，並使用專家审核的訓練數據對模型進行微調。該模型被應用於標題、摘要及全文的篩選工作，涉及120篇文章。這種方法合理，因為它利用現有的AI模型來輔助篳選，能夠節省時間和資源，且具有高效率的優點。然而，其潛在缺陷在於AI模型需依賴高品質的訓練數據，否則可能導致篳選錯誤，特別是在全文篳選階段，由於其複雜性，AI可能仍不夠完善。 ### 數據解釋與結果研究結果顯示，AI模型在標題和摘要篳選階段與專家的一致性高，而在全文篳選階段則呈現中等一致性。這表明AI在初步篳選階段表現出色，但在處理更複雜的全文時仍需改進。結果總體支持了研究假設，即AI能有效輔助篳選，尤其是在初步階段。 ### 局限性與偏見研究的局限性包括訓練數據的品質和多樣性。如果訓練數據不夠全面，AI可能會遺漏重要研究。跨學科研究涉及多個領域的術語，AI需充分訓練以理解這些術語，否則可能出錯。此外，研究僅進行單案例分析，需更多案例來驗證結果的一致性。 ### 臨床及未來研究意涵該研究對臨床和未來研究具有重要意義。AI輔助篳選可提高系統性回顧的效率和一致性，特別是在處理大量文獻時。未來研究可探索更複雜的AI模型，或結合其他技術如自然語言處理工具，以提升篳選準確性。同時，需開發更智能的AI系統以理解不同領域的術語和方法。 ### 其他觀點 AI是否能完全取代人類專家，還需進一步研究。AI在醫療或環境科學等關鍵領域的可解釋性也是重要課題，需了解AI決策的依據。未來可探討如何結合人類監督以纠正AI錯誤，提升整體篳選精度。