The sports nutrition knowledge of large language model (LLM) artificial intelligence (AI) chatbots: An assessment of accuracy, completeness, clarity, quality of evidence, and test-retest reliability.

大型語言模型（LLM）人工智慧（AI）聊天機器人在運動營養知識方面的表現：準確性、完整性、清晰度、證據品質與重測信度之評估

<think> 嗯，我现在要分析这个PubMed的研究，题目是关于大型语言模型（LLM）人工智能聊天机器人在运动营养学方面的知识评估，包括准确性、完整性、清晰度、证据质量和测试重复可靠性。摘要里说他们评估了ChatGPT、Gemini和Claude的基础和高级模型，通过两个实验来测试它们的表现。首先，我得理清研究目的和假设。研究目的是评估这些AI聊天机器人在运动营养方面的能力，看看它们是否可靠，适合用来提供运动营养建议。假设的话，应该是这些AI模型在运动营养方面的表现各有优劣，可能准确性和一致性存在差异，尤其是在不同提示下。接下来，方法和设计部分。研究用了两个实验，实验一用了简单和详细的提示，测试准确性、完整性等指标；实验二用选择题评估准确性和重复性。使用ICC来评估评分者之间的一致性，这点合理，因为需要确保评分的客观性。优点是对比了多个模型，设计了两个实验来全面评估。但缺点可能是提示的问题设计是否全面，可能有些情况没有被涵盖，导致结果偏差。另外，评分标准是否一致，是否有主观因素影响结果。数據解釋與結果方面，实验一中准确性差异挺大的，ChatGPT最高，Claude最低，尤其是ClaudePro只有31%。详细提示对Claude的帮助比较大，但对其他模型影响不大。完整性方面，ChatGPT-4o表现最好，但其他模型中等偏下。证据质量在简单提示时都低，但详细提示后有所提高。实验二的准确性较高，但Claude3.5Sonnet表现最好，而ClaudePro最差。测试重复可靠性是可以接受的。这些结果部分支持假设，显示AI模型在运动营养方面有潜力，但准确性和一致性还有待提高。关于局限性，研究可能没考虑到不同领域的专业性，运动营养可能涉及更多复杂因素，AI可能无法处理。样本量是否足够？比如，是否有足够的提示问题来全面评估模型。另外，评分者是否有足够的专业知识，可能会影响评分结果，导致潜在偏差。臨床及未來研究意涵，研究提醒运动员和教练最好咨询注册营养师，因为AI目前还不够可靠。未来的研究可以改进提示问题，提升模型的准确性和一致性，或者结合专家知识进行训练。其他观點，可能AI模型需要更多的训练数据，特别是在运动营养领域，或者需要更精细的提示引导模型给出更准确的答案。此外，不同模型的训练数据和算法差异可能导致表现不同，未来的研究可以深入分析这些因素。 </think> ### 研究目的與假設該研究旨在評估大型語言模型（LLM）人工智慧（AI）聊天機器人在運動營養學領域的知識，關注其準確性、完整性、清晰度、證據質量及測試重測可靠性。研究假設這些AI模型在運動營養建議上的表現存在差異，且其準確性和一致性可能不一致，尤其在不同提示下。 ### 方法與設計研究採用了兩個實驗來評估ChatGPT、Gemini和Claude的基礎和進階模型。實驗一使用簡單和詳細的提示來測試準確性、完整性、清晰度、證據質量及測試重測可靠性，實驗二則使用多項選擇題評估準確性和重測可靠性。使用ICC評估評分者一致性，設計合理，對比多個模型，全面評估。但可能存在提示問題設計不全面的缺陷，且評分標準可能存在主觀因素影響。 ### 數據解釋與結果實驗一顯示準確性差異顯著，ChatGPT最高，Claude最低。詳細提示顯著提升Claude的準確性。完整性方面，ChatGPT-4o最佳，其他模型中等偏下。證據質量在簡單提示時低，詳細提示後改善。實驗二準確性較高，Claude3.5Sonnet最佳，ClaudePro最差。測試重測可靠性良好。結果部分支持假設，顯示AI在運動營養有潛力，但準確性和一致性需提升。 ### 局限性與偏見研究可能未考慮運動營養的複雜性，樣本量可能不足，評分者專業性可能影響評分，導致偏差。未涉及模型訓練資料和算法差異的影響。 ### 臨床及未來研究意涵研究提醒運動員及教練諮詢專業營養師，因AI目前準確性有限。未來研究可改進提示問題，提升模型準確性，或結合專家知識進行訓練。 ### 其他觀點 AI模型可能需要更多訓練資料或更精細的提示，且不同模型的訓練資料和算法差異可能影響表現。未來研究可深入分析這些因素，以提升AI在運動營養中的應用。