Evaluation of artificial intelligence (AI) chatbots for providing sexual health information: a consensus study using real-world clinical queries.

人工智慧（AI）聊天機器人在提供性健康資訊方面的評估：一項基於真實臨床提問的共識研究

<think> 好，我需要分析這篇研究的標題和摘要。研究目的是評估AI聊天機器人在提供性健康資訊上的表現，特別是與護士相比。首先，研究用了三種AI聊天機器人，分別是Alice、Azure和ChatGPT。它們分別是prompt-tuned和standard的。研究評估了這些聊天機器人在正確性、準確性、安全性等方面的表現。研究方法是分析了195個匿名的性健康問題，來自墨爾本的電話諮詢。專家小組用共識的方法來評估這些回答。結果顯示，Alice的正確率最高，達到85.2%，Azure和ChatGPT分別為69.3%和64.8%。prompt-tuned的機器人表現更好，尤其是在安全性方面，Azure有很高的分數。研究還進行了子群分析，發現AI在一般性健康問題上表現比診所特定問題好。敏感性分析排除了Azure無法回答的問題，性能差距變小了。這些結果支持研究假設，即prompt-tuned AI能更好地提供性健康資訊，但也指出AI容易產生錯誤信息，需要人類監督。未來研究應擴大規模，考慮更多因素，並在真實世界中實施。這些結果對臨床應用有啟示，AI可以作為輔助工具，但不應完全取代人類專業人員。 </think> ### 1. 研究目的與假設該研究主要探討了人工智慧（AI）聊天機器人在提供性健康資訊方面的表現，特別是在與護士相比的效果。研究假設是prompt-tuned的AI聊天機器人（如Alice和Azure）在提供性健康資訊方面會比標準聊天機器人（如ChatGPT）更為準確和安全。 ### 2. 方法與設計研究方法包括分析195個匿名的性健康問題，並由專家小組評估這些問題的回答。優點是使用真實的臨床查詢，增加了研究的實用性。潛在缺陷是樣本量可能不夠大，且評估標準可能存在主觀性。 ### 3. 數據解釋與結果研究結果顯示，prompt-tuned的聊天機器人在正確性和安全性方面優於標準聊天機器人，支持了研究假設。Alice的正確率最高，達到85.2%，Azure和ChatGPT分別為69.3%和64.8%。在安全性方面，Azure表現最佳，達到97.9%。這些結果表明，prompt-tuned的AI在提供性健康資訊方面更為可靠。 ### 4. 局限性與偏見研究可能存在的局限性包括樣本量的限制和評估標準的主觀性。此外，研究主要集中在英語環境下，可能對其他語言或文化背景的應用有限。 ### 5. 臨床及未來研究意涵研究結果表明，prompt-tuned的AI聊天機器人可以作為提供性健康資訊的輔助工具，但仍需人類監督。未來研究應考慮更大規模的評估和真實世界的應用，並探討不同文化和語言背景下的效果。 ### 6. 其他觀點除了研究中提到的結果，可能還有其他因素影響AI聊天機器人的表現，例如用戶的教育水平和對AI的信任度。此外，不同的prompt-tuning方法可能會對結果產生不同的影響，值得進一步研究。