原始文章

這項研究利用大型語言模型(LLMs),如GPT-4-turbo和Claude-3-Opus,開發自動化數據提取流程,針對持續系統性回顧(LSRs)。研究分析了10個臨床試驗的數據,專注於23個關鍵變數。結果顯示,在提示開發集中,96%的回應一致,準確率高達0.99;測試集中則為87%,準確率0.94。對於不一致的回應,GPT-4-turbo和Claude-3-Opus的準確率分別為0.41和0.50,經交叉評析後,51%的回應變得一致,準確率提升至0.76。研究顯示,LLMs能有效提取數據,並透過交叉評析提高準確性。 PubMed DOI


站上相關主題文章列表

使用大型語言模型(LLMs)如Claude 2,相較於傳統方法,能夠明顯提升證據綜合中的數據提取效率和準確性。Claude 2在概念驗證研究中展現出96.3%的整體準確性,並具有高的測試-重測信度。此模型易用,操作上無需專業知識或標記訓練數據,有潛力增進數據提取過程。 PubMed DOI

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

研究比較了Claude 2和GPT-4兩個大型語言模型在提取文章數據的表現。Claude 2使用PDF解析插件,準確率高達96.3%,GPT-4則為68.8%。兩者皆能辨識缺失數據並提取未明確報告的資訊。在提供文本時,兩者表現皆相當準確。研究指出語言模型在數據提取上的潛力,但也強調了準確的PDF解析和人工驗證的必要性。 PubMed DOI

這篇論文探討系統性回顧中摘要篩選的挑戰,並利用大型語言模型(LLMs)的零-shot能力來解決。研究提出一個新穎的問答框架,將篩選標準視為問題,讓LLM回答,並根據綜合回應做出納入或排除的決策。透過CLEF eHealth 2019 Task 2基準驗證,結果顯示該框架在31個系統性回顧數據集上表現優於傳統方法和微調的BERT模型,顯示LLM在摘要篩選中的有效性與潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI

系統性回顧(SR)在綜合醫學文獻中非常重要,但手動篩選文章耗時。大型語言模型(LLMs)有潛力協助篩選相關文獻,雖然目前效果仍在研究中。本研究比較了18種LLMs與人類審稿者在三個SR中的選擇重疊情況。結果顯示,LLMs雖然識別的文章數量較少,但仍能正確分類相當多的標題和摘要。LLMs的表現受納入標準和回顧設計影響,能減輕人類審稿者的工作量,範圍從33%到93%不等。為了提升效果,需在使用前精煉標準。 PubMed DOI

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)自動化提取生活系統性回顧(LSRs)中的數據,模擬兩位審稿人的流程。分析了來自10個試驗的數據,針對23個變數進行研究。使用的模型包括GPT-4-turbo和Claude-3-Opus。結果顯示,在提示開發集中,模型達到96%的高一致性率,但在測試集中降至87%。經過交叉評析後,51%的不一致回應變得一致,整體準確率提升至0.76。研究表明,LLMs能有效支持數據提取,促進系統性回顧的進行。 PubMed DOI

這篇研究指出大型語言模型(LLMs)在提升證據綜合效率方面的潛力,特別是在隨機對照試驗(RCTs)的數據提取上。作者針對LLMs開發了結構化提示,使用Claude(Claude-2),涵蓋了Cochrane手冊的六大領域共58項內容。他們在10個已發表的Cochrane評論RCT上測試,結果顯示數據提取準確率高達94.77%,各領域準確率介於77.97%到100%之間,且每個RCT的提取時間僅需88秒。這些結果顯示結構化提示能有效增強LLMs在系統性回顧中的應用,對證據綜合方法學是一大進步。 PubMed DOI

機器學習,特別是大型語言模型(LLMs),越來越受到重視,能協助健康研究中的系統性回顧(SR)。研究團隊在多個資料庫中搜尋,自2021年4月以來共找到8,054個結果,並手動補充33篇,最終納入37篇專注於LLM應用的文章。分析顯示,LLMs在SR的13個步驟中使用了10個,最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力,但許多應用尚未經過驗證,顯示出這一領域的研究需求日益增加。 PubMed DOI