Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Large language models for conducting systematic reviews: on the rise, but not yet ready for use - a scoping review.
大型語言模型在進行系統性回顧中的應用：雖然正在興起，但尚未準備好使用 - 一項範疇回顧。 J Clin Epidemiol 2025-02-28

機器學習，特別是大型語言模型（LLMs），越來越受到重視，能協助健康研究中的系統性回顧（SR）。研究團隊在多個資料庫中搜尋，自2021年4月以來共找到8,054個結果，並手動補充33篇，最終納入37篇專注於LLM應用的文章。分析顯示，LLMs在SR的13個步驟中使用了10個，最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力，但許多應用尚未經過驗證，顯示出這一領域的研究需求日益增加。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

GPT for RCTs? Using AI to determine adherence to clinical trial reporting guidelines.
RCTs 的 GPT？使用 AI 確定臨床試驗報告指導方針的遵循情況。 BMJ Open 2025-03-19

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文，並針對遵循情況向模型提問。結果顯示，GPT-4 Turbo的F1分數達0.89，準確率90%；Llama 2經微調後，F1分數提升至0.84，準確率83%。此外，GPT-4 Vision能準確識別參與者流動圖，但在細節檢測上有困難。整體而言，這兩個模型在評估報告遵循方面顯示出潛力，未來開發高效的開源AI-LLM可能會進一步提升準確性。 PubMed DOI

Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性：系統性回顧與網絡統合分析 J Med Internet Res 2025-04-30

這篇回顧分析168篇研究，發現ChatGPT-4o在選擇題最準，ChatGPT-4開放式問題表現最好，但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出，Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review.
大型語言模型作為文獻回顧工具的興起：大型語言模型輔助的系統性回顧 J Am Med Inform Assoc 2025-05-07

這篇研究回顧了LLM在自動化科學文獻回顧的應用，分析了172篇論文。多數專案用ChatGPT或GPT系列，特別在文獻搜尋和資料擷取上表現比BERT好。不過，實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制，但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

Large Language Model-Assisted Systematic Review: Validation Based on Cochrane Review Data.
大型語言模型輔助的系統性回顧：基於 Cochrane Review 資料的驗證 Stud Health Technol Inform 2025-05-17

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現，發現GPT-4o在摘要篩選最優（召回率0.894，精確度0.492），並提出有效調整篩選門檻的方法。偏誤風險評估方面，LLM表現依領域不同而異。整體來說，LLM對自動化系統性回顧有幫助，但還有待改進。 PubMed DOI

Large language models for the Screening Step in Systematic Reviews in Dentistry.
牙科系統性文獻回顧篩選階段中大型語言模型的應用 J Dent 2025-06-06

這項研究比較五款聊天機器人在篩選AI牙齒分割相關X光文獻的表現，發現它們在篩選決策上差異很大，跟人類專家的結果也不太一致。ChatGPT-4的精確度和準確率最高，Claude-instant-100k雖然敏感度最好，但精確度最低。整體來說，這些聊天機器人的準確性和一致性都有限，還是需要人類專家來監督和確認結果。 PubMed DOI

Evaluation of a large language model (ChatGPT) versus human researchers in assessing risk-of-bias and community engagement levels: a systematic review use-case analysis.
大型語言模型（ChatGPT）與人類研究人員在評估偏倚風險與社區參與程度之比較：系統性回顧案例分析 Eur J Public Health 2025-06-10

研究用兩個自訂GPT模型和人工審查者比較，評估系統性回顧的偏誤風險和參與程度。結果顯示，GPT模型的分類和人工類似，但在細節分布上有些不同，統計上沒顯著差異。雖然GPT有潛力，但還需要更多研究才能正式應用在科學實務上。 PubMed DOI

Risk of Bias Assessment of Diagnostic Accuracy Studies Using QUADAS 2 by Large Language Models.
利用大型語言模型以 QUADAS 2 進行診斷準確性研究偏倚風險評估 Diagnostics (Basel) 2025-06-26

這項研究比較了四款大型語言模型（如ChatGPT 4o、Grok 3等）和人類專家在評估診斷研究偏誤風險的表現。LLMs平均準確率約73%，Grok 3表現最好。雖然LLMs有潛力，但推理仍會出錯，暫時無法取代專家，只能當作輔助工具，還是需要專家監督。 PubMed DOI

原始文章

站上相關主題文章列表