Development and evaluation of prompts for a large language model to screen titles and abstracts in a living systematic review.

用於持續性系統性回顧中篩選標題與摘要之大型語言模型提示詞的開發與評估

<think> 嗯，我需要分析這篇PubMed的研究。首先，我得仔细看看標題和摘要，了解研究的主要內容。標題是「Development and evaluation of prompts for a large language model to screen titles and abstracts in a living systematic review.」，看來是關於開發和評估大型語言模型用於篩選標題和摘要的提示，應用在動態系統性回顧中。摘要提到，動態系統性回顧（LSRs）能夠維持證據的更新摘要，但重複篩選和選擇新參考文獻使得這些回顮耗時且難以維護。研究評估了大型語言模型（LLMs）在標題和摘要篩選上的效果，將其與人類評審員進行比較。人類決策作為參考標準，來自prodopaminergic干預對無愉快感的LSR。搜索結果分為開發集和測試集，使用開發集來精煉提示，然後在測試集和兩次LSR更新上進行評估。結果顯示，精煉的提示在11,939條記錄和兩次更新上達到100%的敏感度，雖然在人類篩選階段的敏感度在58%到100%之間變化。模擬的工作量減少了65%到85%。模型決策的一致性很高，錯誤排除很少，符合系統性回顮的篩選性能基準。首先，我得分析研究的目的和假設。研究目的是開發和評估LLM在篩選標題和摘要上的效果，尤其是提升LSRs的效率。假設可能是LLMs能夠有效地進行初步篩選，減少人類的工作量而不影響準確性。接下來，方法和設計方面，研究使用了GPT-4o，並分開開發集和測試集來優化提示。這個方法合理，因為分開訓練和測試能避免過度擬合。但潛在缺陷可能是開發集的大小和多樣性是否足夠，或者模型在不同資料集上的表現是否一致。數據解釋方面，結果顯示高敏感度，尤其是100%的敏感度在最終納入的研究中，這意味著模型能夠準確識別出有關的文獻。但在人類篩選階段的敏感度有所波動，可能是因為人類在初步篩選時的標準不一致，或者模型在某些情況下表現不佳。局限性方面，樣本量可能有限，尤其是只有1045條記錄用於開發，可能不足以覆蓋所有可能的案例。此外，研究可能只針對特定的研究主題，結果可能不一定能推廣到其他領域。未來研究的方向可能包括增加訓練資料的多樣性，測試不同模型的性能，或者探討如何將模型與人類評審結合使用，以提高整體效率和準確性。其他觀點可能包括，是否有其他的LLM或模型結構能提供更好的表現，或者是否需要人工監督和校正模型的錯誤，以確保高準確度。總結來說，這篇研究展示了LLMs在提升LSRs效率上的潛力，但仍需克服一些局限性，如資料多樣性和模型的一般化能力。 </think> ### 研究目的與假設該研究旨在探討如何透過大型語言模型（LLMs）來提升動態系統性回顮（Living Systematic Reviews, LSRs）的效率，特別是在篩選標題和摘要的階段。研究假設LLMs能夠有效地執行初步篩選，從而減少人類評審的工作量，同時保持高準確性，適合用於臨床和政策決策的證據。 ### 方法與設計研究採用了GPT-4o模型，並分開開發集和測試集來優化提示詞。開發集用於訓練和精煉模型，測試集則用於評估模型的表現。這種分開訓練和測試的方法合理，因為它能有效評估模型在未見資料上的表現，避免過度擬合。然而，開發集的大小和多樣性可能不足，可能影響模型的泛化能力。此外，模型在不同主題或資料集上的表現可能不一致，潛在缺陷包括資料的代表性和模型的適應性。 ### 數據解釋與結果研究結果顯示，精煉的提示詞在測試集和兩次LSR更新上達到100%的敏感度，表明模型能夠準確識別最終納入的研究。然而，在人類篩選階段的敏感度在58%到100%之間變化，可能反映出人類初步篩選標準的不一致或模型在某些情況下的表現不佳。總體而言，結果支持研究假設，證實LLMs在提升效率和準確性方面的潛力。 ### 局限性與偏見研究的主要局限性在於樣本量和多樣性。開發集僅包含1045條記錄，可能不足以涵蓋所有可能的案例，限制了模型的泛化能力。此外，研究針對特定的研究主題，結果可能不具普遍性。潛在的偏見包括資料選取偏差和模型對特定語言或結構的依賴，可能影響其在其他領域的表現。 ### 臨床及未來研究意涵該研究展示了LLMs在提升LSRs效率上的潛力，尤其是在減少人類工作量方面。未來研究建議增加訓練資料的多樣性，測試不同模型的性能，並探討模型與人類評審的結合使用，以提升整體效率和準確性。此外，考慮其他LLM或模型結構可能提供更好的表現。 ### 其他觀點其他可能的解釋或觀點包括探討是否需要人工監督和校正模型的錯誤，以確保高準確度。此外，考慮不同模型結構或結合多個模型的方法，可能進一步提升性能和可靠性。未來研究可以比較不同LLMs的表現，評估其在不同應用場景中的效果。總結來說，該研究成功展示了LLMs在提升LSRs效率上的潛力，但仍需克服資料多樣性和模型泛化能力等局限性，以確保其在臨床和政策決策中的可靠應用。