原始文章

這篇研究指出大型語言模型(LLMs)在提升證據綜合效率方面的潛力,特別是在隨機對照試驗(RCTs)的數據提取上。作者針對LLMs開發了結構化提示,使用Claude(Claude-2),涵蓋了Cochrane手冊的六大領域共58項內容。他們在10個已發表的Cochrane評論RCT上測試,結果顯示數據提取準確率高達94.77%,各領域準確率介於77.97%到100%之間,且每個RCT的提取時間僅需88秒。這些結果顯示結構化提示能有效增強LLMs在系統性回顧中的應用,對證據綜合方法學是一大進步。 PubMed DOI


站上相關主題文章列表

研究比較了Claude 2和GPT-4兩個大型語言模型在提取文章數據的表現。Claude 2使用PDF解析插件,準確率高達96.3%,GPT-4則為68.8%。兩者皆能辨識缺失數據並提取未明確報告的資訊。在提供文本時,兩者表現皆相當準確。研究指出語言模型在數據提取上的潛力,但也強調了準確的PDF解析和人工驗證的必要性。 PubMed DOI

系統性回顧(SR)在綜合醫學文獻中非常重要,但手動篩選文章耗時。大型語言模型(LLMs)有潛力協助篩選相關文獻,雖然目前效果仍在研究中。本研究比較了18種LLMs與人類審稿者在三個SR中的選擇重疊情況。結果顯示,LLMs雖然識別的文章數量較少,但仍能正確分類相當多的標題和摘要。LLMs的表現受納入標準和回顧設計影響,能減輕人類審稿者的工作量,範圍從33%到93%不等。為了提升效果,需在使用前精煉標準。 PubMed DOI

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)自動化提取生活系統性回顧(LSRs)中的數據,模擬兩位審稿人的流程。分析了來自10個試驗的數據,針對23個變數進行研究。使用的模型包括GPT-4-turbo和Claude-3-Opus。結果顯示,在提示開發集中,模型達到96%的高一致性率,但在測試集中降至87%。經過交叉評析後,51%的不一致回應變得一致,整體準確率提升至0.76。研究表明,LLMs能有效支持數據提取,促進系統性回顧的進行。 PubMed DOI

這項研究評估大型語言模型(LLMs)在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法,如Moonshot-v1-128k和Claude-3.5-sonnet,準確率達95%以上;而LLM輔助的方法更佳,準確率可達97%以上。此外,LLM輔助的方法處理時間大幅縮短,分別只需14.7分鐘和5.9分鐘,傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示,LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)提升系統性回顧(SRs)的效率,特別是在文章摘要和全文篩選上。研究分析了48,425個引用文獻和12,690篇文章,使用GPT4-0125-preview模型開發提示模板。結果顯示,優化後的提示在摘要和全文篩選上都達到高敏感度和特異性,且篩選速度快、成本低。研究建議這些創新對研究者和醫學領域人員非常有幫助,但也指出了一些限制,如僅針對免費文章及需進一步優化提示。 PubMed DOI

機器學習,特別是大型語言模型(LLMs),越來越受到重視,能協助健康研究中的系統性回顧(SR)。研究團隊在多個資料庫中搜尋,自2021年4月以來共找到8,054個結果,並手動補充33篇,最終納入37篇專注於LLM應用的文章。分析顯示,LLMs在SR的13個步驟中使用了10個,最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力,但許多應用尚未經過驗證,顯示出這一領域的研究需求日益增加。 PubMed DOI

這項研究探討大型語言模型(LLMs)在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs,並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示,LLMs在小型數據集上表現優於人類研究者,但在大型數據集上,由於類別不平衡,精確度下降。研究還發現,LLM與人類的結合能減少工作量並保持高敏感性,顯示自動化篩選可減輕研究者負擔。總體而言,LLMs有潛力提升系統性回顧的效率與質量,但仍需進一步驗證。 PubMed DOI

這項研究開發了 LARS-GPT 流程,利用多個大型語言模型協助系統性回顧和統合分析時的文獻篩選。實驗結果顯示,LARS-GPT 能在召回率超過 0.9 的情況下,減少超過 40% 的篩選工作量,證明 LLMs 能有效提升文獻篩選效率。 PubMed DOI

這篇研究發現,大型語言模型(LLMs)能自動化文獻篩選和資訊擷取,顯著提升數位健康科技(DHTs)相關隨機對照試驗(RCTs)文獻回顧的效率。不過,DHT在實際醫療應用上還有待克服一些挑戰。 PubMed