Evaluating the Performance of State-of-the-Art Artificial Intelligence Chatbots Based on the WHO Global Guidelines for the Prevention of Surgical Site Infection: Cross-Sectional Study.

基於 WHO 全球手術部位感染預防指引，評估最先進人工智慧聊天機器人的表現：橫斷面研究

<think> 嗯，我现在要分析这篇关于AI聊天机器人在手术部位感染预防方面的研究。首先，标题是说评估这些最先进的AI聊天机器人基于WHO的全球指南来预防手术部位感染的性能。这看起来是一个跨-sectional研究，可能是在评估AI在医疗应用中的效果。首先看研究目的，摘要里提到手术部位感染（SSI）是最常见的医疗相关感染，会增加病率和死亡率，还带来经济负担。预防SSI需要外科医生严格遵守最新的临床指南，并实施标准化和多层次的干预策略。但是，临床指南经常更新，获取和解读这些指南变得非常耗时和复杂。AI聊天机器人的出现为解决这些问题提供了可能性，但也有挑战。所以，这个研究的目的应该是测试最先进的AI聊天机器人在生成推荐和理由方面的多维能力，看看它们是否符合WHO的全球指南。接下来，研究的方法和设计。他们参考了其他权威指南，从2018年的WHO指南中提炼和选择推荐和理由作为基准。然后将这些内容转化为闭式查询来获取推荐，开放式查询来获取理由，输入到四个不同的AI聊天机器人中，每个模型输入了三次。所有的回答都被四个来自多学科的资深外科医生用5点Likert量表评估，基于QUEST维度的10个评估指标。然后比较聊天机器人在各维度的表现，并计算评分者的协议。数据解读部分，总共有300个回答，来自四个聊天机器人对25个查询的回答。评分者的协议水平从中等到良好。推荐方面，准确性、一致性和伤害评分的平均值都在4左右，SD在0.88到1.09之间。理由部分，有四个子维度得分在4以上，但一致性、清晰度、全面性和准确性则较低，平均在3.74到3.94之间。整体上，Claude 3.5 Sonnet和ChatGPT-4o表现最好。研究的局限性可能包括聊天机器人可能给出不准确的回答，特别是在复杂或模糊的情况下，这可能对SSI预防产生严重后果。此外，评分者可能存在主观偏见，毕竟都是外科医生，可能对某些指南有特定的理解和期望。样本量可能也有限，只测试了四个模型，可能无法涵盖所有情况。关于未来研究的方向，可能需要提高聊天机器人的稳定性，特别是在处理复杂或模糊的查询时。此外，可能需要更多的训练数据，特别是针对最新的医疗指南，以确保推荐和理由的准确性和一致性。同时，评估过程中可能需要引入更多元化的评分者，包括不同专业的医疗人员，以减少偏见。临床应用方面，AI聊天机器人有潜力帮助外科医生快速获取最新的指南信息，节省时间，提高预防SSI的效果。然而，必须确保这些工具的准确性和可靠性，可能需要与其他验证机制结合使用，如人工审核或双重检查，以避免因错误信息导致的严重后果。总的来说，这个研究展示了AI聊天机器人在医疗应用中的潜力，但也指出了需要改进的方面，特别是在准确性和一致性上。未来研究需要进一步优化这些模型，并在更广泛的临床环境中进行测试，以确保其安全有效。 </think> ### 研究目的與假設本研究旨在評估先進的人工智慧（AI）聊天機器人在根據世界衛生組織（WHO）全球指南預防手術部位感染（SSI）方面的表現。研究假設這些AI聊天機器人能夠生成符合指南的建議及其理由，並具備多維度的能力。 ### 方法與設計研究採用跨-sectional設計，從2018年WHO指南中提煉建議及理由，轉化為閉式和開式查詢，分別輸入四個AI模型。每個模型輸入三次，總共生成300個回應。四位外科醫生使用5點Likert量表評估回應，基於QUEST維度的十個指標。優點是系統性評估，但可能缺乏動態應用場景。 ### 數據解釋與結果結果顯示AI模型在建議的準確性、一致性和傷害評分較高，Claude 3.5 Sonnet和ChatGPT-4o表現最佳。然而，理由回應在一致性、清晰度、全面性和準確性上較低，顯示AI在複雜理由生成上的挑戰。 ### 局限性與偏見研究局限於靜態評估，缺乏臨床動態應用情境，且評分者均為外科醫生，可能存在主觀偏見。AI模型的回應可能不夠準確，對SSI預防可能造成嚴重後果。 ### 臨床及未來研究意涵研究顯示AI聊天機器人在SSI預防中的潛力，但需提升穩定性和準確性。未來研究應優化模型，增加多元化評分者，並考慮與其他驗證機制結合，以確保安全有效。 ### 其他觀點 AI聊天機器人在SSI預防中的應用前景廣闊，但需解決準確性和一致性的問題。未來研究需針對複雜查詢進行優化，以提高臨床應用價值。