原始文章

機器學習,特別是大型語言模型(LLMs),越來越受到重視,能協助健康研究中的系統性回顧(SR)。研究團隊在多個資料庫中搜尋,自2021年4月以來共找到8,054個結果,並手動補充33篇,最終納入37篇專注於LLM應用的文章。分析顯示,LLMs在SR的13個步驟中使用了10個,最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力,但許多應用尚未經過驗證,顯示出這一領域的研究需求日益增加。 PubMed DOI


站上相關主題文章列表

系統性回顧(SR)的搜尋查詢開發通常相當繁瑣。本研究利用大型語言模型(LLMs)來自動生成基於SR標題和關鍵問題的布林搜尋查詢,並整理了10,346個來自PROSPERO的查詢作為訓練數據集。模型評估顯示,生成的搜尋查詢中位敏感度達85%,但仍有改進空間。訪談結果指出,這些模型可作為初步探索的工具,未來可透過提升查詢質量及特定領域微調來增強效果。此專案的數據集將有助於LLMs的訓練與評估。 PubMed DOI

系統性回顧(SR)在綜合醫學文獻中非常重要,但手動篩選文章耗時。大型語言模型(LLMs)有潛力協助篩選相關文獻,雖然目前效果仍在研究中。本研究比較了18種LLMs與人類審稿者在三個SR中的選擇重疊情況。結果顯示,LLMs雖然識別的文章數量較少,但仍能正確分類相當多的標題和摘要。LLMs的表現受納入標準和回顧設計影響,能減輕人類審稿者的工作量,範圍從33%到93%不等。為了提升效果,需在使用前精煉標準。 PubMed DOI

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)自動化提取生活系統性回顧(LSRs)中的數據,模擬兩位審稿人的流程。分析了來自10個試驗的數據,針對23個變數進行研究。使用的模型包括GPT-4-turbo和Claude-3-Opus。結果顯示,在提示開發集中,模型達到96%的高一致性率,但在測試集中降至87%。經過交叉評析後,51%的不一致回應變得一致,整體準確率提升至0.76。研究表明,LLMs能有效支持數據提取,促進系統性回顧的進行。 PubMed DOI

您開發了一個大型語言模型(LLM)輔助的系統,專門用於健康技術評估(HTA)的系統性文獻回顧(SLR)。這個系統包含五個模組,從文獻搜尋到數據總結,並具有人機協作的設計,能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估,系統在摘要篩選中表現優異,達到90%的敏感度和82的F1分數,顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程,降低時間和成本,並提升證據生成的準確性。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

這項研究探討大型語言模型(LLMs)在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs,並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示,LLMs在小型數據集上表現優於人類研究者,但在大型數據集上,由於類別不平衡,精確度下降。研究還發現,LLM與人類的結合能減少工作量並保持高敏感性,顯示自動化篩選可減輕研究者負擔。總體而言,LLMs有潛力提升系統性回顧的效率與質量,但仍需進一步驗證。 PubMed DOI

這篇研究回顧了LLM在自動化科學文獻回顧的應用,分析了172篇論文。多數專案用ChatGPT或GPT系列,特別在文獻搜尋和資料擷取上表現比BERT好。不過,實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制,但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現,發現GPT-4o在摘要篩選最優(召回率0.894,精確度0.492),並提出有效調整篩選門檻的方法。偏誤風險評估方面,LLM表現依領域不同而異。整體來說,LLM對自動化系統性回顧有幫助,但還有待改進。 PubMed DOI