Evaluating a Customized Version of ChatGPT for Systematic Review Data Extraction in Health Research: Development and Usability Study.

用於健康研究系統性回顧資料擷取的客製化 ChatGPT 版本之評估：開發與可用性研究

<think> 嗯，我要分析這篇研究，從標題和摘要入手。研究主要是評估一個客製化的ChatGPT，用於系統性回顧的資料提取。這對於健康科學研究很重要，因為系統性回顧需要整合大量研究，但耗時且容易出錯。首先，研究目的很明顯，就是發展並評估這個自訂的GPT，叫做Systematic Review Extractor Pro。它的目的是幫助自動化資料提取，節省時間，減少人為錯誤。假設方面，研究者可能假設AI模型能夠有效地從學術論文中提取資料，並且準確性高，效率更高。方法方面，用了OpenAI的GPT Builder，根據RISEN框架來設計提示詞。這很合理，因為這樣能夠明確模型的角色和任務，提高提取準確性。評估用了20個研究樣本，來自兩個不同的系統性回顧，計算機器和人工審核者的同意率。優點是客觀，數據明確，但樣本量可能不夠大，影響結果的普遍性。數據解釋方面，GPT的效率很高，平均每個研究只需26.6秒，加上人工審查的13分鐘，總共比人工快很多。準確性在研究特徵和參與者特徵上很高，超過90%，但在方法論特徵和統計結果上稍低。這可能是因為這些部分更複雜，或者需要更深入的理解。局限性包括樣本量小，來自兩個回顧，可能不具代表性。不同領域的系統性回顧可能效果不同。另外，模型的可靠性和準確性在更廣泛的應用中還不明朗，需要更多測試。抽取的數據是否全面，是否漏掉重要信息，也是未來需要考慮的。臨床和未來研究意涵，這個工具可以節省大量時間和資源，提升效率，特別是在研究特徵和參與者特徵的提取。但在方法論和統計結果上，可能需要人工額外檢查，確保準確性。未來可以研究如何改善模型在這些複雜領域的表現，或者增加更多訓練資料。其他觀點，可能模型在抽取特定類型的資料上有偏好，或者某些研究設計更容易被模型正確抽取。另外，是否有文化或語言的偏差，例如在非英語論文上的表現如何，也值得探討。總結來說，這個研究展示了AI在系統性回顧中的潛力，但仍有改進空間，需要更多的測試和驗證。 </think> ### 1. 研究目的與假設這項研究旨在探討如何利用自訂版本的ChatGPT（名為Systematic Review Extractor Pro）來自動化系統性回顧的資料提取過程。研究假設該AI模型能夠有效地從學術論文中提取關鍵資料，具備高效率和高準確性。 ### 2. 方法與設計研究採用了OpenAI的GPT Builder，結合RISEN框架設計提示詞，以提高模型的提取準確性。評估使用20個研究樣本，來自兩個系統性回顧，計算機器與人工審核者的同意率。方法合理，優點是客觀數據，但樣本量有限，可能影響普遍性。 ### 3. 數據解釋與結果 GPT在效率上顯著優於人工，提取時間大幅縮短。準確性在研究特徵和參與者特徵上高達90%以上，但在方法論特徵和統計結果上準確性較低，可能因為複雜性或需更深入理解。 ### 4. 局限性與偏見樣本量小，來自兩個回顧，代表性不足。模型在不同領域的表現可能差異，需更多測試。抽取的全面性和可靠性尚未全面驗證，可能存在未考慮的偏差。 ### 5. 臨床及未來研究意涵該工具可顯著節省時間和資源，特別在研究特徵和參與者特徵的提取。未來研究需改善模型在複雜領域的表現，增加訓練資料，並考慮文化或語言偏差。 ### 6. 其他觀點模型可能在抽取特定資料類型上有偏好，或某些研究設計更易正確抽取。非英語論文的表現值得探討，以確保模型的普遍適用性。 ### 總結研究展示了AI在系統性回顧中的潛力，但仍需改進，特別是在處理複雜資料和擴展應用領域方面，需更多測試和驗證以確保全面性和準確性。