Human-Comparable Sensitivity of Large Language Models in Identifying Eligible Studies Through Title and Abstract Screening: 3-Layer Strategy Using GPT-3.5 and GPT-4 for Systematic Reviews.
大型語言模型在通過標題和摘要篩選識別合格研究中的人類可比敏感性：使用 GPT-3.5 和 GPT-4 進行系統評價的三層策略。 J Med Internet Res 2024-08-16

這項研究探討了一種三層篩選方法，利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次：研究設計、目標患者及介入措施。結果顯示，GPT-4在敏感性和特異性上表現良好，顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域，以評估其更廣泛的有效性。 PubMed DOI

Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

Transforming literature screening: The emerging role of large language models in systematic reviews.
文獻篩選的轉變：大型語言模型在系統評價中的新興角色。 Proc Natl Acad Sci U S A 2025-01-06

系統性回顧（SR）在綜合醫學文獻中非常重要，但手動篩選文章耗時。大型語言模型（LLMs）有潛力協助篩選相關文獻，雖然目前效果仍在研究中。本研究比較了18種LLMs與人類審稿者在三個SR中的選擇重疊情況。結果顯示，LLMs雖然識別的文章數量較少，但仍能正確分類相當多的標題和摘要。LLMs的表現受納入標準和回顧設計影響，能減輕人類審稿者的工作量，範圍從33%到93%不等。為了提升效果，需在使用前精煉標準。 PubMed DOI

Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Large language models for conducting systematic reviews: on the rise, but not yet ready for use - a scoping review.
大型語言模型在進行系統性回顧中的應用：雖然正在興起，但尚未準備好使用 - 一項範疇回顧。 J Clin Epidemiol 2025-02-28

機器學習，特別是大型語言模型（LLMs），越來越受到重視，能協助健康研究中的系統性回顧（SR）。研究團隊在多個資料庫中搜尋，自2021年4月以來共找到8,054個結果，並手動補充33篇，最終納入37篇專注於LLM應用的文章。分析顯示，LLMs在SR的13個步驟中使用了10個，最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力，但許多應用尚未經過驗證，顯示出這一領域的研究需求日益增加。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

High-performance automated abstract screening with large language model ensembles.
高效能自動化摘要篩選與大型語言模型集成。 J Am Med Inform Assoc 2025-03-22

這項研究探討大型語言模型（LLMs）在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs，並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示，LLMs在小型數據集上表現優於人類研究者，但在大型數據集上，由於類別不平衡，精確度下降。研究還發現，LLM與人類的結合能減少工作量並保持高敏感性，顯示自動化篩選可減輕研究者負擔。總體而言，LLMs有潛力提升系統性回顧的效率與質量，但仍需進一步驗證。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review.
大型語言模型作為文獻回顧工具的興起：大型語言模型輔助的系統性回顧 J Am Med Inform Assoc 2025-05-07

這篇研究回顧了LLM在自動化科學文獻回顧的應用，分析了172篇論文。多數專案用ChatGPT或GPT系列，特別在文獻搜尋和資料擷取上表現比BERT好。不過，實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制，但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

Large Language Models and the Analyses of Adherence to Reporting Guidelines in Systematic Reviews and Overviews of Reviews (PRISMA 2020 and PRIOR).
大型語言模型與系統性回顧及回顧之總覽中報告指引遵循性分析（PRISMA 2020 與 PRIOR） J Med Syst 2025-06-12

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現，所有模型在PRISMA 2020的判斷上都高估了合規情況，準確度不如人類專家；但在PRIOR指引上，ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究，未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

原始文章

站上相關主題文章列表