這項研究利用大型語言模型(LLMs),如GPT-4-turbo和Claude-3-Opus,開發自動化數據提取流程,針對持續系統性回顧(LSRs)。研究分析了10個臨床試驗的數據,專注於23個關鍵變數。結果顯示,在提示開發集中,96%的回應一致,準確率高達0.99;測試集中則為87%,準確率0.94。對於不一致的回應,GPT-4-turbo和Claude-3-Opus的準確率分別為0.41和0.50,經交叉評析後,51%的回應變得一致,準確率提升至0.76。研究顯示,LLMs能有效提取數據,並透過交叉評析提高準確性。
PubMed
DOI