Performance of two large language models for data extraction in evidence synthesis.
兩個大型語言模型在證據綜合中的資料提取表現。 Res Synth Methods 2024-06-19

研究比較了Claude 2和GPT-4兩個大型語言模型在提取文章數據的表現。Claude 2使用PDF解析插件，準確率高達96.3％，GPT-4則為68.8％。兩者皆能辨識缺失數據並提取未明確報告的資訊。在提供文本時，兩者表現皆相當準確。研究指出語言模型在數據提取上的潛力，但也強調了準確的PDF解析和人工驗證的必要性。 PubMed DOI

Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Collaborative large language models for automated data extraction in living systematic reviews.
用於自動數據提取的協作大型語言模型在活系統評價中的應用。 J Am Med Inform Assoc 2025-01-21

這項研究探討如何利用大型語言模型（LLMs）自動化提取生活系統性回顧（LSRs）中的數據，模擬兩位審稿人的流程。分析了來自10個試驗的數據，針對23個變數進行研究。使用的模型包括GPT-4-turbo和Claude-3-Opus。結果顯示，在提示開發集中，模型達到96%的高一致性率，但在測試集中降至87%。經過交叉評析後，51%的不一致回應變得一致，整體準確率提升至0.76。研究表明，LLMs能有效支持數據提取，促進系統性回顧的進行。 PubMed DOI

AI-driven evidence synthesis: data extraction of randomized controlled trials with large language models.
AI 驅動的證據綜合：使用大型語言模型進行隨機對照試驗的數據提取。 Int J Surg 2025-02-04

這篇研究指出大型語言模型（LLMs）在提升證據綜合效率方面的潛力，特別是在隨機對照試驗（RCTs）的數據提取上。作者針對LLMs開發了結構化提示，使用Claude（Claude-2），涵蓋了Cochrane手冊的六大領域共58項內容。他們在10個已發表的Cochrane評論RCT上測試，結果顯示數據提取準確率高達94.77%，各領域準確率介於77.97%到100%之間，且每個RCT的提取時間僅需88秒。這些結果顯示結構化提示能有效增強LLMs在系統性回顧中的應用，對證據綜合方法學是一大進步。 PubMed DOI

Large language models for conducting systematic reviews: on the rise, but not yet ready for use - a scoping review.
大型語言模型在進行系統性回顧中的應用：雖然正在興起，但尚未準備好使用 - 一項範疇回顧。 J Clin Epidemiol 2025-02-28

機器學習，特別是大型語言模型（LLMs），越來越受到重視，能協助健康研究中的系統性回顧（SR）。研究團隊在多個資料庫中搜尋，自2021年4月以來共找到8,054個結果，並手動補充33篇，最終納入37篇專注於LLM應用的文章。分析顯示，LLMs在SR的13個步驟中使用了10個，最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力，但許多應用尚未經過驗證，顯示出這一領域的研究需求日益增加。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

High-performance automated abstract screening with large language model ensembles.
高效能自動化摘要篩選與大型語言模型集成。 J Am Med Inform Assoc 2025-03-22

這項研究探討大型語言模型（LLMs）在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs，並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示，LLMs在小型數據集上表現優於人類研究者，但在大型數據集上，由於類別不平衡，精確度下降。研究還發現，LLM與人類的結合能減少工作量並保持高敏感性，顯示自動化篩選可減輕研究者負擔。總體而言，LLMs有潛力提升系統性回顧的效率與質量，但仍需進一步驗證。 PubMed DOI

The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review.
大型語言模型作為文獻回顧工具的興起：大型語言模型輔助的系統性回顧 J Am Med Inform Assoc 2025-05-07

這篇研究回顧了LLM在自動化科學文獻回顧的應用，分析了172篇論文。多數專案用ChatGPT或GPT系列，特別在文獻搜尋和資料擷取上表現比BERT好。不過，實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制，但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

Large Language Model-Assisted Systematic Review: Validation Based on Cochrane Review Data.
大型語言模型輔助的系統性回顧：基於 Cochrane Review 資料的驗證 Stud Health Technol Inform 2025-05-17

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現，發現GPT-4o在摘要篩選最優（召回率0.894，精確度0.492），並提出有效調整篩選門檻的方法。偏誤風險評估方面，LLM表現依領域不同而異。整體來說，LLM對自動化系統性回顧有幫助，但還有待改進。 PubMed DOI

原始文章

站上相關主題文章列表