Streamlining Systematic Reviews: Harnessing Large Language Models for Quality Assessment and Risk-of-Bias Evaluation.
利用大型語言模型優化系統性文獻回顧：品質評估與偏倚風險評估。 Cureus 2023-09-08

這篇文章討論了如何巧妙運用大型語言模型（LLMs）來評估研究質量和偏見風險，取代傳統耗時且需大量人力的方式。雖然LLMs能提供客觀、一致且高效的評估，但仍需謹慎因應機器學習模型可能帶來的風險和偏見。結合人類專業知識與自動化LLM評估，或許是最佳的證據綜合方式。 PubMed DOI

Automated Paper Screening for Clinical Reviews Using Large Language Models: Data Analysis Study.
使用大型語言模型進行臨床評論的自動篩選：資料分析研究。 J Med Internet Res 2024-01-29

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時，對臨床研究論文標題和摘要的辨識表現。結果顯示，這些模型在篩選超過24,000個標題和摘要時表現準確且敏感，並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間，並提升臨床研究品質，而非取代研究人員。 PubMed DOI

Integrating large language models in systematic reviews: a framework and case study using ROBINS-I for risk of bias assessment.
將此醫學文章的標題翻譯為繁體中文：「將大型語言模型整合到系統性評論中：以 ROBINS-I 進行偏倚風險評估的框架和案例研究。」 BMJ Evid Based Med 2024-02-21

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性，提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告，並確定了評論的任務類型。雖然模型有潛力，但研究結果顯示仍需人類審查輸入。 PubMed DOI

Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

Integrating human expertise & automated methods for a dynamic and multi-parametric evaluation of large language models' feasibility in clinical decision-making.
將人類專業知識與自動化方法整合，以動態和多參數評估大型語言模型在臨床決策中的可行性。 Int J Med Inform 2024-05-29

近期LLMs如ChatGPT在醫療保健領域受歡迎，但也帶來安全和倫理風險。為因應此挑戰，提出新方法評估LLMs在臨床護理中的可行性，強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧，確定關鍵評估領域。由專家進行同行評審，確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後，有些被推薦使用，有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

Title and abstract screening for literature reviews using large language models: an exploratory study in the biomedical domain.
使用大型語言模型進行文獻回顧的標題和摘要篩選：生物醫學領域的探索性研究。 Syst Rev 2024-06-15

利用大型語言模型（LLMs）自動篩選相關出版物進行文獻回顧是有潛力但複雜的任務。已開發Python腳本，利用LLMs評估出版物相關性。不同LLMs在不同數據集上表現不同，靈敏度/特異性範圍從81.93％/75.19％到97.58％/19.12％。修改設置如提示結構和Likert量表範圍，對性能有顯著影響。LLMs的分類器或許可用於評估出版物相關性，但在系統性文獻回顧和更廣泛影響方面的應用尚不確定。未來研究可能會更廣泛地採用LLMs來評估出版物。 PubMed DOI

A question-answering framework for automated abstract screening using large language models.
使用大型語言模型的自動摘要篩選問答框架。 J Am Med Inform Assoc 2024-07-23

這篇論文探討系統性回顧中摘要篩選的挑戰，並利用大型語言模型（LLMs）的零-shot能力來解決。研究提出一個新穎的問答框架，將篩選標準視為問題，讓LLM回答，並根據綜合回應做出納入或排除的決策。透過CLEF eHealth 2019 Task 2基準驗證，結果顯示該框架在31個系統性回顧數據集上表現優於傳統方法和微調的BERT模型，顯示LLM在摘要篩選中的有效性與潛力。 PubMed DOI

Human-Comparable Sensitivity of Large Language Models in Identifying Eligible Studies Through Title and Abstract Screening: 3-Layer Strategy Using GPT-3.5 and GPT-4 for Systematic Reviews.
大型語言模型在通過標題和摘要篩選識別合格研究中的人類可比敏感性：使用 GPT-3.5 和 GPT-4 進行系統評價的三層策略。 J Med Internet Res 2024-08-16

這項研究探討了一種三層篩選方法，利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次：研究設計、目標患者及介入措施。結果顯示，GPT-4在敏感性和特異性上表現良好，顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域，以評估其更廣泛的有效性。 PubMed DOI

Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

Zero- and few-shot prompting of generative large language models provides weak assessment of risk of bias in clinical trials.
生成大型語言模型的零-shot和少量提示對臨床試驗中的偏見風險評估提供了薄弱的依據。 Res Synth Methods 2024-08-23

這項研究探討了使用生成性大型語言模型（LLMs）來自動化醫學研究中的偏見風險評估（RoB）。研究發現，LLMs在新整理的測試數據集上的表現不如預期，F1分數僅在0.1到0.2之間，與簡單基準相似，顯示其在RoB2預測任務中的效能有限。即使在分解任務中，表現也不佳，遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI

原始文章

站上相關主題文章列表