"My AI is Lying to Me": User-reported LLM hallucinations in AI mobile apps reviews.

「我的AI在對我說謊」：使用者回報於AI行動應用程式評論中的LLM幻覺現象

<think> 好的，我现在需要分析用户提供的关于LLM幻觉的研究论文。首先，我要仔细阅读标题和摘要，理解研究的主要内容和目的。标题是“My AI is Lying to Me”: User-reported LLM hallucinations in AI mobile apps reviews。看起来这篇研究关注的是用户在移动应用中报告的LLM幻觉问题。摘要中提到，研究分析了300万条用户评论，找出了20,000个可能的案例，并手动标注了1,000个。结果显示，大约1.75%的评论涉及LLM幻觉，分为七种类型，其中事实错误最常见。接下来，我需要从六个角度进行分析：研究目的与假设、方法与设计、数据解释与结果、局限性与偏见、临床及未来研究意义、其他观点。首先，研究目的应该是了解用户如何感知和报告LLM幻觉，以及这些问题对用户体验的影响。假设可能包括LLM幻觉在移动应用中普遍存在，不同类型的幻觉影响用户的不同，以及这些问题会影响用户信任。方法方面，使用混合方法和算法来识别评论，样本量大，但可能存在算法偏差，特别是手动标注部分可能不够全面。数据解释方面，结果支持假设，显示幻觉确实存在，尤其是事实错误。但解释可能存在偏差，比如用户可能不总是准确报告问题。局限性包括数据来源的偏见，应用商店评论可能不代表所有用户，且研究可能遗漏了其他类型的应用或用途。未来研究可以探讨不同类型的应用中的幻觉，或者开发更有效的检测方法。临床意义在于提高LLM的准确性，增强用户信任。其他观点可能包括用户对技术的不同理解水平，或者幻觉在某些情况下可能被用户接受。现在，我需要将这些思考组织成一个连贯的分析，引用摘要中的具体内容来支持每个观点。 </think> ### 研究目的與假設本研究旨在探討用戶在AI手機應用中感知及報告的大型語言模型（LLMs）幻覺問題。研究假設LLMs在實際應用中會產生幻覺，影響用戶體驗，並分為多種類型，如事實錯誤、無意義輸出等。研究還假設這些幻覺會降低用戶信任，並需要開發策略來監控和減輕其影響。 ### 方法與設計研究採用混合方法，分析300萬條用戶評論，使用基於啟發式的演算法篩選20,000個候選評論，並手動標註1,000個。優點是樣本量大，能全面了解幻覺類型。缺點是演算法可能有偏差，手動標註可能不足以涵蓋所有情況。 ### 數據解釋與結果結果顯示約1.75%的評論涉及幻覺，事實錯誤最常見，占38%。這支持假設，顯示幻覺普遍存在並影響用戶。解釋可能存在偏差，因為用戶報告可能不完全準確。 ### 局限性與偏見研究主要基於應用商店評論，可能偏向負面體驗，忽略其他平台或正面反饋。樣本可能不代表所有用戶，且未考慮文化差異或用戶背景。 ### 臨床及未來研究意涵研究結果強調了在AI應用中監控和減輕幻覺的重要性。未來研究可探討不同應用中的幻覺，或開發更有效的檢測方法，以提升用戶信任。 ### 其他觀點用戶對技術的理解水平可能影響幻覺報告，部分用戶可能接受某些幻覺。研究可進一步探討用戶背景對報告行為的影響，以及幻覺在特定情境下的可接受性。