Transforming literature screening: The emerging role of large language models in systematic reviews.
文獻篩選的轉變：大型語言模型在系統評價中的新興角色。 Proc Natl Acad Sci U S A 2025-01-06

系統性回顧（SR）在綜合醫學文獻中非常重要，但手動篩選文章耗時。大型語言模型（LLMs）有潛力協助篩選相關文獻，雖然目前效果仍在研究中。本研究比較了18種LLMs與人類審稿者在三個SR中的選擇重疊情況。結果顯示，LLMs雖然識別的文章數量較少，但仍能正確分類相當多的標題和摘要。LLMs的表現受納入標準和回顧設計影響，能減輕人類審稿者的工作量，範圍從33%到93%不等。為了提升效果，需在使用前精煉標準。 PubMed DOI

Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

Testing the utility of GPT for title and abstract screening in environmental systematic evidence synthesis.
在環境系統性證據綜合中測試 GPT 用於標題與摘要篩選的實用性 Environ Evid 2025-04-24

這篇論文發現，GPT-4在系統性文獻回顧時，能準確又有效地篩選相關文章標題和摘要。在近1.2萬筆資料測試下，GPT-4在特定門檻下可達100%召回率，人工篩選時間最多可省下75%。但還需更多主題和提示詞的研究，才能確認其穩定性。 PubMed DOI

Utilizing Large language models to select literature for meta-analysis shows workload reduction while maintaining a similar recall level as manual curation.
利用大型語言模型選取進行統合分析的文獻，可在維持與人工篩選相似召回率的同時減少工作負擔。 BMC Med Res Methodol 2025-04-28

這項研究開發了 LARS-GPT 流程，利用多個大型語言模型協助系統性回顧和統合分析時的文獻篩選。實驗結果顯示，LARS-GPT 能在召回率超過 0.9 的情況下，減少超過 40% 的篩選工作量，證明 LLMs 能有效提升文獻篩選效率。 PubMed DOI

The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review.
大型語言模型作為文獻回顧工具的興起：大型語言模型輔助的系統性回顧 J Am Med Inform Assoc 2025-05-07

這篇研究回顧了LLM在自動化科學文獻回顧的應用，分析了172篇論文。多數專案用ChatGPT或GPT系列，特別在文獻搜尋和資料擷取上表現比BERT好。不過，實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制，但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

Large Language Model-Assisted Systematic Review: Validation Based on Cochrane Review Data.
大型語言模型輔助的系統性回顧：基於 Cochrane Review 資料的驗證 Stud Health Technol Inform 2025-05-17

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現，發現GPT-4o在摘要篩選最優（召回率0.894，精確度0.492），並提出有效調整篩選門檻的方法。偏誤風險評估方面，LLM表現依領域不同而異。整體來說，LLM對自動化系統性回顧有幫助，但還有待改進。 PubMed DOI

Large Language Models and the Analyses of Adherence to Reporting Guidelines in Systematic Reviews and Overviews of Reviews (PRISMA 2020 and PRIOR).
大型語言模型與系統性回顧及回顧之總覽中報告指引遵循性分析（PRISMA 2020 與 PRIOR） J Med Syst 2025-06-12

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現，所有模型在PRISMA 2020的判斷上都高估了合規情況，準確度不如人類專家；但在PRIOR指引上，ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究，未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

原始文章

站上相關主題文章列表