原始文章

這項研究探討大型語言模型(LLMs)在評估科學報告及臨床試驗方法學的有效性。研究比較了LLMs與人類評審的準確率,結果顯示人類的準確率高達89%至75%,而LLMs的準確率則較低,PRISMA介於63%到70%之間。雖然結合LLM的評分能提升準確率,但仍不及人類。研究指出,人類與AI合作能提高效率,特別是在較簡單的任務上,但對於複雜的評估則效果有限。 PubMed DOI


站上相關主題文章列表

這篇文章討論了如何巧妙運用大型語言模型(LLMs)來評估研究質量和偏見風險,取代傳統耗時且需大量人力的方式。雖然LLMs能提供客觀、一致且高效的評估,但仍需謹慎因應機器學習模型可能帶來的風險和偏見。結合人類專業知識與自動化LLM評估,或許是最佳的證據綜合方式。 PubMed DOI

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時,對臨床研究論文標題和摘要的辨識表現。結果顯示,這些模型在篩選超過24,000個標題和摘要時表現準確且敏感,並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間,並提升臨床研究品質,而非取代研究人員。 PubMed DOI

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性,提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告,並確定了評論的任務類型。雖然模型有潛力,但研究結果顯示仍需人類審查輸入。 PubMed DOI

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

近期LLMs如ChatGPT在醫療保健領域受歡迎,但也帶來安全和倫理風險。為因應此挑戰,提出新方法評估LLMs在臨床護理中的可行性,強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧,確定關鍵評估領域。由專家進行同行評審,確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後,有些被推薦使用,有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

利用大型語言模型(LLMs)自動篩選相關出版物進行文獻回顧是有潛力但複雜的任務。已開發Python腳本,利用LLMs評估出版物相關性。不同LLMs在不同數據集上表現不同,靈敏度/特異性範圍從81.93%/75.19%到97.58%/19.12%。修改設置如提示結構和Likert量表範圍,對性能有顯著影響。LLMs的分類器或許可用於評估出版物相關性,但在系統性文獻回顧和更廣泛影響方面的應用尚不確定。未來研究可能會更廣泛地採用LLMs來評估出版物。 PubMed DOI

這篇論文探討系統性回顧中摘要篩選的挑戰,並利用大型語言模型(LLMs)的零-shot能力來解決。研究提出一個新穎的問答框架,將篩選標準視為問題,讓LLM回答,並根據綜合回應做出納入或排除的決策。透過CLEF eHealth 2019 Task 2基準驗證,結果顯示該框架在31個系統性回顧數據集上表現優於傳統方法和微調的BERT模型,顯示LLM在摘要篩選中的有效性與潛力。 PubMed DOI

這項研究探討了一種三層篩選方法,利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次:研究設計、目標患者及介入措施。結果顯示,GPT-4在敏感性和特異性上表現良好,顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域,以評估其更廣泛的有效性。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI

這項研究探討了使用生成性大型語言模型(LLMs)來自動化醫學研究中的偏見風險評估(RoB)。研究發現,LLMs在新整理的測試數據集上的表現不如預期,F1分數僅在0.1到0.2之間,與簡單基準相似,顯示其在RoB2預測任務中的效能有限。即使在分解任務中,表現也不佳,遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI