Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Leveraging Large Language Models and Agent-Based Systems for Scientific Data Analysis: Validation Study.
利用大型語言模型和基於代理的系統進行科學數據分析：驗證研究。 JMIR Ment Health 2025-02-13

大型語言模型有潛力改變科學數據的分析與溝通，但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統，透過整合外部數據檢索和分析工具，旨在提供可靠的輸出，讓專家與非專家都能輕鬆使用。研究顯示，LITURAt在查詢一致性和準確性上表現優異，能改善科學數據分析的可及性。儘管有些限制，LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

Large language models for conducting systematic reviews: on the rise, but not yet ready for use - a scoping review.
大型語言模型在進行系統性回顧中的應用：雖然正在興起，但尚未準備好使用 - 一項範疇回顧。 J Clin Epidemiol 2025-02-28

機器學習，特別是大型語言模型（LLMs），越來越受到重視，能協助健康研究中的系統性回顧（SR）。研究團隊在多個資料庫中搜尋，自2021年4月以來共找到8,054個結果，並手動補充33篇，最終納入37篇專注於LLM應用的文章。分析顯示，LLMs在SR的13個步驟中使用了10個，最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力，但許多應用尚未經過驗證，顯示出這一領域的研究需求日益增加。 PubMed DOI

An automated framework for assessing how well LLMs cite relevant medical references.
一個自動化框架用於評估大型語言模型（LLMs）引用相關醫學文獻的準確性 Nat Commun 2025-04-16

這項研究開發了 SourceCheckup 工具，能自動檢查 GPT-4o 等大型語言模型在健康問題回答時，所引用的資料是否真的可靠。結果顯示，七種 LLM 中有 50–90% 的回答其實沒被來源完整支持，就算是 GPT-4o 也有三成內容沒被來源證實。醫師審查也證明這點，顯示 LLM 在醫學資訊引用上還有很大改進空間。 PubMed DOI

Utilizing Large language models to select literature for meta-analysis shows workload reduction while maintaining a similar recall level as manual curation.
利用大型語言模型選取進行統合分析的文獻，可在維持與人工篩選相似召回率的同時減少工作負擔。 BMC Med Res Methodol 2025-04-28

這項研究開發了 LARS-GPT 流程，利用多個大型語言模型協助系統性回顧和統合分析時的文獻篩選。實驗結果顯示，LARS-GPT 能在召回率超過 0.9 的情況下，減少超過 40% 的篩選工作量，證明 LLMs 能有效提升文獻篩選效率。 PubMed DOI

The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review.
大型語言模型作為文獻回顧工具的興起：大型語言模型輔助的系統性回顧 J Am Med Inform Assoc 2025-05-07

這篇研究回顧了LLM在自動化科學文獻回顧的應用，分析了172篇論文。多數專案用ChatGPT或GPT系列，特別在文獻搜尋和資料擷取上表現比BERT好。不過，實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制，但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

Streamlining systematic reviews with large language models using prompt engineering and retrieval augmented generation.
利用提示工程與檢索增強生成（Retrieval Augmented Generation），結合大型語言模型以簡化系統性文獻回顧 BMC Med Res Methodol 2025-05-10

這項研究比較 Rayyan 和自家開發的 LLM 系統在文獻篩選上的表現。Rayyan 最多可減少 62% 人工時間，但容易漏掉相關文獻或增加工作量。LLM 系統則透過進階技術，達到 99.5% 排除率、100% 陰性預測值，人工時間減少 95.5%，且完全保留相關文獻，效率和準確度都明顯勝過 Rayyan 和人工篩選。 PubMed DOI

Large Language Model-Assisted Systematic Review: Validation Based on Cochrane Review Data.
大型語言模型輔助的系統性回顧：基於 Cochrane Review 資料的驗證 Stud Health Technol Inform 2025-05-17

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現，發現GPT-4o在摘要篩選最優（召回率0.894，精確度0.492），並提出有效調整篩選門檻的方法。偏誤風險評估方面，LLM表現依領域不同而異。整體來說，LLM對自動化系統性回顧有幫助，但還有待改進。 PubMed DOI

The Use of Large Language Models to Accelerate Literature Review Towards Digital Health Equity and Inclusiveness.
運用大型語言模型加速文獻回顧以促進數位健康平權與包容性 AMIA Annu Symp Proc 2025-05-26

這篇研究發現，大型語言模型（LLMs）能自動化文獻篩選和資訊擷取，顯著提升數位健康科技（DHTs）相關隨機對照試驗（RCTs）文獻回顧的效率。不過，DHT在實際醫療應用上還有待克服一些挑戰。 PubMed

Automated literature research and review-generation method based on large language models.
基於大型語言模型的自動化文獻檢索與綜述生成方法 Natl Sci Rev 2025-06-02

這篇論文提出用大型語言模型自動產生高品質科學文獻綜述的方法，不只品質媲美人工，還能跨領域應用，使用者不用專業背景也能操作。系統有嚴格控管，產生錯誤資訊的機率極低（低於0.5%）。在催化劑研究領域測試時，能全面且可靠地整理資料。釋出的軟體讓大家一鍵就能產生綜述，大幅提升研究效率。 PubMed DOI

原始文章

站上相關主題文章列表