The sports nutrition knowledge of large language model (LLM) artificial intelligence (AI) chatbots: An assessment of accuracy, completeness, clarity, quality of evidence, and test-retest reliability.

大型語言模型(LLM)人工智慧(AI)聊天機器人在運動營養知識方面的表現:準確性、完整性、清晰度、證據品質與重測信度之評估

<think> 嗯,我现在要分析这个PubMed的研究,题目是关于大型语言模型(LLM)人工智能聊天机器人在运动营养学方面的知识评估,包括准确性、完整性、清晰度、证据质量和测试重复可靠性。摘要里说他们评估了ChatGPT、Gemini和Claude的基础和高级模型,通过两个实验来测试它们的表现。 首先,我得理清研究目的和假设。研究目的是评估这些AI聊天机器人在运动营养方面的能力,看看它们是否可靠,适合用来提供运动营养建议。假设的话,应该是这些AI模型在运动营养方面的表现各有优劣,可能准确性和一致性存在差异,尤其是在不同提示下。 接下来,方法和设计部分。研究用了两个实验,实验一用了简单和详细的提示,测试准确性、完整性等指标;实验二用选择题评估准确性和重复性。使用ICC来评估评分者之间的一致性,这点合理,因为需要确保评分的客观性。优点是对比了多个模型,设计了两个实验来全面评估。但缺点可能是提示的问题设计是否全面,可能有些情况没有被涵盖,导致结果偏差。另外,评分标准是否一致,是否有主观因素影响结果。 数據解釋與結果方面,实验一中准确性差异挺大的,ChatGPT最高,Claude最低,尤其是ClaudePro只有31%。详细提示对Claude的帮助比较大,但对其他模型影响不大。完整性方面,ChatGPT-4o表现最好,但其他模型中等偏下。证据质量在简单提示时都低,但详细提示后有所提高。实验二的准确性较高,但Claude3.5Sonnet表现最好,而ClaudePro最差。测试重复可靠性是可以接受的。这些结果部分支持假设,显示AI模型在运动营养方面有潜力,但准确性和一致性还有待提高。 关于局限性,研究可能没考虑到不同领域的专业性,运动营养可能涉及更多复杂因素,AI可能无法处理。样本量是否足够?比如,是否有足够的提示问题来全面评估模型。另外,评分者是否有足够的专业知识,可能会影响评分结果,导致潜在偏差。 臨床及未來研究意涵,研究提醒运动员和教练最好咨询注册营养师,因为AI目前还不够可靠。未来的研究可以改进提示问题,提升模型的准确性和一致性,或者结合专家知识进行训练。 其他观點,可能AI模型需要更多的训练数据,特别是在运动营养领域,或者需要更精细的提示引导模型给出更准确的答案。此外,不同模型的训练数据和算法差异可能导致表现不同,未来的研究可以深入分析这些因素。 </think> ### 研究目的與假設 該研究旨在評估大型語言模型(LLM)人工智慧(AI)聊天機器人在運動營養學領域的知識,關注其準確性、完整性、清晰度、證據質量及測試重測可靠性。研究假設這些AI模型在運動營養建議上的表現存在差異,且其準確性和一致性可能不一致,尤其在不同提示下。 ### 方法與設計 研究採用了兩個實驗來評估ChatGPT、Gemini和Claude的基礎和進階模型。實驗一使用簡單和詳細的提示來測試準確性、完整性、清晰度、證據質量及測試重測可靠性,實驗二則使用多項選擇題評估準確性和重測可靠性。使用ICC評估評分者一致性,設計合理,對比多個模型,全面評估。但可能存在提示問題設計不全面的缺陷,且評分標準可能存在主觀因素影響。 ### 數據解釋與結果 實驗一顯示準確性差異顯著,ChatGPT最高,Claude最低。詳細提示顯著提升Claude的準確性。完整性方面,ChatGPT-4o最佳,其他模型中等偏下。證據質量在簡單提示時低,詳細提示後改善。實驗二準確性較高,Claude3.5Sonnet最佳,ClaudePro最差。測試重測可靠性良好。結果部分支持假設,顯示AI在運動營養有潛力,但準確性和一致性需提升。 ### 局限性與偏見 研究可能未考慮運動營養的複雜性,樣本量可能不足,評分者專業性可能影響評分,導致偏差。未涉及模型訓練資料和算法差異的影響。 ### 臨床及未來研究意涵 研究提醒運動員及教練諮詢專業營養師,因AI目前準確性有限。未來研究可改進提示問題,提升模型準確性,或結合專家知識進行訓練。 ### 其他觀點 AI模型可能需要更多訓練資料或更精細的提示,且不同模型的訓練資料和算法差異可能影響表現。未來研究可深入分析這些因素,以提升AI在運動營養中的應用。