ChatGPT-4o can serve as the second rater for data extraction in systematic reviews.
ChatGPT-4o 可作為系統評價中數據提取的第二評估者。 PLoS One 2025-01-08

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果，並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示，ChatGPT-4o的數據提取準確率高達92.4%，錯誤率僅5.2%。其數據提取的重現性也很強，兩次獨立會議的協議率達94.1%，但若論文缺少資訊，這個比例會降到77.2%。總體來看，ChatGPT-4o是一個可靠的數據提取工具，未來在數據總結方面有潛力發展。 PubMed DOI

Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Using artificial intelligence to semi-automate trustworthiness assessment of randomized controlled trials: A case study.
使用人工智慧半自動化隨機對照試驗的可信度評估：案例研究。 J Clin Epidemiol 2025-01-19

隨機對照試驗（RCTs）對循證醫學非常重要，但有些試驗使用虛構數據，影響研究的完整性。本研究探討利用GPT-4驅動的ChatGPT來簡化RCT評估過程。透過TRACT檢查表，ChatGPT能有效處理RCT論文的PDF，並準確回答檢查項目，與人類評估者的一致性達84%。此外，ChatGPT在數據提取方面也表現出色，對三個表格達到100%準確率。未來將致力於提升ChatGPT在多個RCT中的應用，實現更高的數據捕捉準確性及自動化處理。 PubMed DOI

Evaluating GPT Models for Automated Literature Screening in Wastewater-Based Epidemiology.
評估 GPT 模型在污水基礎流行病學中自動文獻篩選的應用。 ACS Environ Au 2025-01-20

這項研究探討了利用AI模型，特別是GPT-3、GPT-3.5和GPT-4，自動化污水流行病學文獻篩選，以提升綜合分析的效率。結果顯示，GPT-4在識別原始數據論文方面表現優異，精確度達0.96，召回率為1.00，超越目前的人工篩選標準。不過，這些模型在準確識別相關取樣地點上仍有挑戰，顯示人類監督的重要性。研究強調模型設計的謹慎性，建議AI輔助篩選能提升WBE研究效率，但仍需人類介入以確保準確性。 PubMed DOI

Human versus artificial intelligence: evaluating ChatGPT's performance in conducting published systematic reviews with meta-analysis in chronic pain research.
人類與人工智慧：評估 ChatGPT 在慢性疼痛研究中進行已發表的系統性回顧與統合分析的表現。 Reg Anesth Pain Med 2025-02-16

這項研究評估了大型語言模型ChatGPT在系統性回顧和統合分析中的表現，特別是在脊髓刺激後情緒功能的數據上。結果顯示，ChatGPT在標題和摘要篩選的準確率為70.4%，而全文篩選的準確率為68.4%。在數據整合方面，ChatGPT的準確率達到100%。雖然在篩選任務中表現中等，但在數據整合上表現優異。研究指出，人工智慧能提升系統性回顧的效率，但仍需人類監督以確保研究質量。 PubMed DOI

Using artificial intelligence tools for data quality evaluation in the context of microplastic human health risk assessments.
在微塑料對人類健康風險評估中使用人工智慧工具進行數據質量評估。 Environ Int 2025-02-23

隨著微塑料對健康影響的關注增加，對高品質數據的需求也隨之上升。目前的質量保證和控制（QA/QC）框架因手動評估耗時且不一致而面臨挑戰。本研究探討利用人工智慧（AI），特別是大型語言模型（LLMs），如ChatGPT和Gemini，來提升微塑料研究中的QA/QC過程。研究結果顯示，AI能有效提取信息並評估研究可靠性，顯示出在環境科學中標準化微塑料風險評估的潛力。 PubMed DOI

Enhancing systematic literature reviews with generative artificial intelligence: development, applications, and performance evaluation.
利用生成式人工智慧增強系統性文獻回顧：發展、應用及效能評估。 J Am Med Inform Assoc 2025-03-04

您開發了一個大型語言模型（LLM）輔助的系統，專門用於健康技術評估（HTA）的系統性文獻回顧（SLR）。這個系統包含五個模組，從文獻搜尋到數據總結，並具有人機協作的設計，能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估，系統在摘要篩選中表現優異，達到90%的敏感度和82的F1分數，顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程，降低時間和成本，並提升證據生成的準確性。 PubMed DOI

Using artificial intelligence tools to automate data extraction for living evidence syntheses.
使用人工智慧工具自動化數據提取以進行活證據綜合。 PLoS One 2025-04-03

生活證據綜合（LES）是一種定期更新系統性回顧的方法，雖然有工具能自動搜尋文章，但數據提取仍需手動進行。本文介紹了一個使用Python和ChatGPT的概念驗證程式，能自動化從期刊文章中提取數據，顯著縮短時間並保持準確性。我們在估算COVID-19潛伏期的研究中測試了此程式，並討論了其限制，如信息量及AI處理速度。這項研究為AI在科學研究中的應用提供了新視角，探討了提升數據處理效率的潛力。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

Testing the utility of GPT for title and abstract screening in environmental systematic evidence synthesis.
在環境系統性證據綜合中測試 GPT 用於標題與摘要篩選的實用性 Environ Evid 2025-04-24

這篇論文發現，GPT-4在系統性文獻回顧時，能準確又有效地篩選相關文章標題和摘要。在近1.2萬筆資料測試下，GPT-4在特定門檻下可達100%召回率，人工篩選時間最多可省下75%。但還需更多主題和提示詞的研究，才能確認其穩定性。 PubMed DOI

原始文章

站上相關主題文章列表