<i>Literature search sandbox</i>: a large language model that generates search queries for systematic reviews.
<i>文獻搜尋沙盒</i>：一個生成系統評價搜尋查詢的大型語言模型。 JAMIA Open 2024-09-26

系統性回顧（SR）的搜尋查詢開發通常相當繁瑣。本研究利用大型語言模型（LLMs）來自動生成基於SR標題和關鍵問題的布林搜尋查詢，並整理了10,346個來自PROSPERO的查詢作為訓練數據集。模型評估顯示，生成的搜尋查詢中位敏感度達85%，但仍有改進空間。訪談結果指出，這些模型可作為初步探索的工具，未來可透過提升查詢質量及特定領域微調來增強效果。此專案的數據集將有助於LLMs的訓練與評估。 PubMed DOI

Transforming literature screening: The emerging role of large language models in systematic reviews.
文獻篩選的轉變：大型語言模型在系統評價中的新興角色。 Proc Natl Acad Sci U S A 2025-01-06

系統性回顧（SR）在綜合醫學文獻中非常重要，但手動篩選文章耗時。大型語言模型（LLMs）有潛力協助篩選相關文獻，雖然目前效果仍在研究中。本研究比較了18種LLMs與人類審稿者在三個SR中的選擇重疊情況。結果顯示，LLMs雖然識別的文章數量較少，但仍能正確分類相當多的標題和摘要。LLMs的表現受納入標準和回顧設計影響，能減輕人類審稿者的工作量，範圍從33%到93%不等。為了提升效果，需在使用前精煉標準。 PubMed DOI

Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Collaborative large language models for automated data extraction in living systematic reviews.
用於自動數據提取的協作大型語言模型在活系統評價中的應用。 J Am Med Inform Assoc 2025-01-21

這項研究探討如何利用大型語言模型（LLMs）自動化提取生活系統性回顧（LSRs）中的數據，模擬兩位審稿人的流程。分析了來自10個試驗的數據，針對23個變數進行研究。使用的模型包括GPT-4-turbo和Claude-3-Opus。結果顯示，在提示開發集中，模型達到96%的高一致性率，但在測試集中降至87%。經過交叉評析後，51%的不一致回應變得一致，整體準確率提升至0.76。研究表明，LLMs能有效支持數據提取，促進系統性回顧的進行。 PubMed DOI

Enhancing systematic literature reviews with generative artificial intelligence: development, applications, and performance evaluation.
利用生成式人工智慧增強系統性文獻回顧：發展、應用及效能評估。 J Am Med Inform Assoc 2025-03-04

您開發了一個大型語言模型（LLM）輔助的系統，專門用於健康技術評估（HTA）的系統性文獻回顧（SLR）。這個系統包含五個模組，從文獻搜尋到數據總結，並具有人機協作的設計，能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估，系統在摘要篩選中表現優異，達到90%的敏感度和82的F1分數，顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程，降低時間和成本，並提升證據生成的準確性。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

High-performance automated abstract screening with large language model ensembles.
高效能自動化摘要篩選與大型語言模型集成。 J Am Med Inform Assoc 2025-03-22

這項研究探討大型語言模型（LLMs）在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs，並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示，LLMs在小型數據集上表現優於人類研究者，但在大型數據集上，由於類別不平衡，精確度下降。研究還發現，LLM與人類的結合能減少工作量並保持高敏感性，顯示自動化篩選可減輕研究者負擔。總體而言，LLMs有潛力提升系統性回顧的效率與質量，但仍需進一步驗證。 PubMed DOI

The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review.
大型語言模型作為文獻回顧工具的興起：大型語言模型輔助的系統性回顧 J Am Med Inform Assoc 2025-05-07

這篇研究回顧了LLM在自動化科學文獻回顧的應用，分析了172篇論文。多數專案用ChatGPT或GPT系列，特別在文獻搜尋和資料擷取上表現比BERT好。不過，實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制，但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

Large Language Model-Assisted Systematic Review: Validation Based on Cochrane Review Data.
大型語言模型輔助的系統性回顧：基於 Cochrane Review 資料的驗證 Stud Health Technol Inform 2025-05-17

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現，發現GPT-4o在摘要篩選最優（召回率0.894，精確度0.492），並提出有效調整篩選門檻的方法。偏誤風險評估方面，LLM表現依領域不同而異。整體來說，LLM對自動化系統性回顧有幫助，但還有待改進。 PubMed DOI

原始文章

站上相關主題文章列表