Performance of two large language models for data extraction in evidence synthesis.
兩個大型語言模型在證據綜合中的資料提取表現。 Res Synth Methods 2024-06-19

研究比較了Claude 2和GPT-4兩個大型語言模型在提取文章數據的表現。Claude 2使用PDF解析插件，準確率高達96.3％，GPT-4則為68.8％。兩者皆能辨識缺失數據並提取未明確報告的資訊。在提供文本時，兩者表現皆相當準確。研究指出語言模型在數據提取上的潛力，但也強調了準確的PDF解析和人工驗證的必要性。 PubMed DOI

Transforming literature screening: The emerging role of large language models in systematic reviews.
文獻篩選的轉變：大型語言模型在系統評價中的新興角色。 Proc Natl Acad Sci U S A 2025-01-06

系統性回顧（SR）在綜合醫學文獻中非常重要，但手動篩選文章耗時。大型語言模型（LLMs）有潛力協助篩選相關文獻，雖然目前效果仍在研究中。本研究比較了18種LLMs與人類審稿者在三個SR中的選擇重疊情況。結果顯示，LLMs雖然識別的文章數量較少，但仍能正確分類相當多的標題和摘要。LLMs的表現受納入標準和回顧設計影響，能減輕人類審稿者的工作量，範圍從33%到93%不等。為了提升效果，需在使用前精煉標準。 PubMed DOI

Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Collaborative large language models for automated data extraction in living systematic reviews.
用於自動數據提取的協作大型語言模型在活系統評價中的應用。 J Am Med Inform Assoc 2025-01-21

這項研究探討如何利用大型語言模型（LLMs）自動化提取生活系統性回顧（LSRs）中的數據，模擬兩位審稿人的流程。分析了來自10個試驗的數據，針對23個變數進行研究。使用的模型包括GPT-4-turbo和Claude-3-Opus。結果顯示，在提示開發集中，模型達到96%的高一致性率，但在測試集中降至87%。經過交叉評析後，51%的不一致回應變得一致，整體準確率提升至0.76。研究表明，LLMs能有效支持數據提取，促進系統性回顧的進行。 PubMed DOI

Language models for data extraction and risk of bias assessment in complementary medicine.
補充醫學中數據提取和偏倚風險評估的語言模型。 NPJ Digit Med 2025-01-31

這項研究評估大型語言模型（LLMs）在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法，如Moonshot-v1-128k和Claude-3.5-sonnet，準確率達95%以上；而LLM輔助的方法更佳，準確率可達97%以上。此外，LLM輔助的方法處理時間大幅縮短，分別只需14.7分鐘和5.9分鐘，傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示，LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI

Development of Prompt Templates for Large Language Model-Driven Screening in Systematic Reviews.
大型語言模型驅動的系統評價篩選提示模板的開發。 Ann Intern Med 2025-02-24

這項研究探討如何利用大型語言模型（LLMs）提升系統性回顧（SRs）的效率，特別是在文章摘要和全文篩選上。研究分析了48,425個引用文獻和12,690篇文章，使用GPT4-0125-preview模型開發提示模板。結果顯示，優化後的提示在摘要和全文篩選上都達到高敏感度和特異性，且篩選速度快、成本低。研究建議這些創新對研究者和醫學領域人員非常有幫助，但也指出了一些限制，如僅針對免費文章及需進一步優化提示。 PubMed DOI

Large language models for conducting systematic reviews: on the rise, but not yet ready for use - a scoping review.
大型語言模型在進行系統性回顧中的應用：雖然正在興起，但尚未準備好使用 - 一項範疇回顧。 J Clin Epidemiol 2025-02-28

機器學習，特別是大型語言模型（LLMs），越來越受到重視，能協助健康研究中的系統性回顧（SR）。研究團隊在多個資料庫中搜尋，自2021年4月以來共找到8,054個結果，並手動補充33篇，最終納入37篇專注於LLM應用的文章。分析顯示，LLMs在SR的13個步驟中使用了10個，最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力，但許多應用尚未經過驗證，顯示出這一領域的研究需求日益增加。 PubMed DOI

High-performance automated abstract screening with large language model ensembles.
高效能自動化摘要篩選與大型語言模型集成。 J Am Med Inform Assoc 2025-03-22

這項研究探討大型語言模型（LLMs）在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs，並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示，LLMs在小型數據集上表現優於人類研究者，但在大型數據集上，由於類別不平衡，精確度下降。研究還發現，LLM與人類的結合能減少工作量並保持高敏感性，顯示自動化篩選可減輕研究者負擔。總體而言，LLMs有潛力提升系統性回顧的效率與質量，但仍需進一步驗證。 PubMed DOI

Utilizing Large language models to select literature for meta-analysis shows workload reduction while maintaining a similar recall level as manual curation.
利用大型語言模型選取進行統合分析的文獻，可在維持與人工篩選相似召回率的同時減少工作負擔。 BMC Med Res Methodol 2025-04-28

這項研究開發了 LARS-GPT 流程，利用多個大型語言模型協助系統性回顧和統合分析時的文獻篩選。實驗結果顯示，LARS-GPT 能在召回率超過 0.9 的情況下，減少超過 40% 的篩選工作量，證明 LLMs 能有效提升文獻篩選效率。 PubMed DOI

The Use of Large Language Models to Accelerate Literature Review Towards Digital Health Equity and Inclusiveness.
運用大型語言模型加速文獻回顧以促進數位健康平權與包容性 AMIA Annu Symp Proc 2025-05-26

這篇研究發現，大型語言模型（LLMs）能自動化文獻篩選和資訊擷取，顯著提升數位健康科技（DHTs）相關隨機對照試驗（RCTs）文獻回顧的效率。不過，DHT在實際醫療應用上還有待克服一些挑戰。 PubMed

原始文章

站上相關主題文章列表