原始文章

這項研究探討大型語言模型(LLMs)在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs,並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示,LLMs在小型數據集上表現優於人類研究者,但在大型數據集上,由於類別不平衡,精確度下降。研究還發現,LLM與人類的結合能減少工作量並保持高敏感性,顯示自動化篩選可減輕研究者負擔。總體而言,LLMs有潛力提升系統性回顧的效率與質量,但仍需進一步驗證。 PubMed DOI


站上相關主題文章列表

系統性回顧(SR)在綜合醫學文獻中非常重要,但手動篩選文章耗時。大型語言模型(LLMs)有潛力協助篩選相關文獻,雖然目前效果仍在研究中。本研究比較了18種LLMs與人類審稿者在三個SR中的選擇重疊情況。結果顯示,LLMs雖然識別的文章數量較少,但仍能正確分類相當多的標題和摘要。LLMs的表現受納入標準和回顧設計影響,能減輕人類審稿者的工作量,範圍從33%到93%不等。為了提升效果,需在使用前精煉標準。 PubMed DOI

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)自動化提取生活系統性回顧(LSRs)中的數據,模擬兩位審稿人的流程。分析了來自10個試驗的數據,針對23個變數進行研究。使用的模型包括GPT-4-turbo和Claude-3-Opus。結果顯示,在提示開發集中,模型達到96%的高一致性率,但在測試集中降至87%。經過交叉評析後,51%的不一致回應變得一致,整體準確率提升至0.76。研究表明,LLMs能有效支持數據提取,促進系統性回顧的進行。 PubMed DOI

這項研究評估大型語言模型(LLMs)在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法,如Moonshot-v1-128k和Claude-3.5-sonnet,準確率達95%以上;而LLM輔助的方法更佳,準確率可達97%以上。此外,LLM輔助的方法處理時間大幅縮短,分別只需14.7分鐘和5.9分鐘,傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示,LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)提升系統性回顧(SRs)的效率,特別是在文章摘要和全文篩選上。研究分析了48,425個引用文獻和12,690篇文章,使用GPT4-0125-preview模型開發提示模板。結果顯示,優化後的提示在摘要和全文篩選上都達到高敏感度和特異性,且篩選速度快、成本低。研究建議這些創新對研究者和醫學領域人員非常有幫助,但也指出了一些限制,如僅針對免費文章及需進一步優化提示。 PubMed DOI

機器學習,特別是大型語言模型(LLMs),越來越受到重視,能協助健康研究中的系統性回顧(SR)。研究團隊在多個資料庫中搜尋,自2021年4月以來共找到8,054個結果,並手動補充33篇,最終納入37篇專注於LLM應用的文章。分析顯示,LLMs在SR的13個步驟中使用了10個,最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力,但許多應用尚未經過驗證,顯示出這一領域的研究需求日益增加。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

這項研究開發了 LARS-GPT 流程,利用多個大型語言模型協助系統性回顧和統合分析時的文獻篩選。實驗結果顯示,LARS-GPT 能在召回率超過 0.9 的情況下,減少超過 40% 的篩選工作量,證明 LLMs 能有效提升文獻篩選效率。 PubMed DOI

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現,發現GPT-4o在摘要篩選最優(召回率0.894,精確度0.492),並提出有效調整篩選門檻的方法。偏誤風險評估方面,LLM表現依領域不同而異。整體來說,LLM對自動化系統性回顧有幫助,但還有待改進。 PubMed DOI

這篇研究發現,大型語言模型(LLMs)能自動化文獻篩選和資訊擷取,顯著提升數位健康科技(DHTs)相關隨機對照試驗(RCTs)文獻回顧的效率。不過,DHT在實際醫療應用上還有待克服一些挑戰。 PubMed