AI的过度自信:人类认知偏差的算法镜像与应对
核心观点
- 人工智能(尤其是大语言模型)通过训练数据、模型假设和用户反馈循环,继承了人类的认知偏差。
- 过度自信作为一种典型的人类元认知偏差,正日益频繁地出现在大语言模型的输出中。
- 大语言模型自身和用户都倾向于高估模型答案的正确性。
- 缓解这一问题需要开发者的策略和用户的警惕性双管齐下。
人类认知偏差如何影响AI
- AI由人类创造,人类的认知缺陷会渗入AI技术。
- 当训练数据在输入选择、测量或标注过程中存在偏差时,算法和输出结果也会产生偏差。
常见的偏差领域包括:
- 人口统计学偏差:例如性别刻板印象或少数群体的代表性不足。
- 文化偏差:例如以西方为中心的规范。
- 拟人化偏差:人类倾向于像与人类互动一样与AI(如ChatGPT)交互,而AI则学会迎合这种期望。
AI中的过度自信偏差
过度自信是人类普遍存在的认知偏差,表现为对自身能力或判断的过高估计。尽管这通常与自我反思相关,但AI模拟人类思维且由人类构建,因此同样会表现出过度自信。
在开发阶段的表现
- 数据选择:开发者可能过度自信地选择数据(例如,偏爱新闻中做出确定性预测的自信陈述)。
- 数据解释:在标注时可能过于武断(例如,将可能为其他动物的图像标注为“猫”)。
- 模型构建:为避免不确定性,可能倾向于生成单一答案而非概率分布。
模型架构本身:容易导致过度泛化,并常使用表达确定性的语言。
- 示例:将“用了几个月”的产品描述为“全新”。
- 模式识别问题:在不存在模式的地方“看到”模式,或基于概率补全模式,可能导致“幻觉”产生。
- 结果:过度自信的AI会产生错误答案(如错误的数学计算或虚假归因),并以自信的方式传达给用户。
研究与量化
- 研究关注点在于模型表达出的置信度与其实际准确性之间的差距。
- 一项研究让5个LLM回答1万个它们知道正确答案的问题,并询问其对自己答案的信心度。
- 结果发现,这些模型高估其答案正确性的程度在20%(GPT o1)到60%(GPT 3.5) 之间。
缓解尝试
研究者尝试通过多种方式校准LLM的准确性或减少其过度自信,其中一些方法类似于用于纠正人类过度自信的“去偏差”技术:
- 使用选择题格式:将正确答案与可信的干扰项放在一起,类似于要求过度自信的个体“考虑其他可能答案”。
用户互动与反馈的放大效应
在用户互动与反馈阶段,AI的过度自信可能被传递并进一步放大,这主要涉及基于人类反馈的强化学习。
- 拟人化偏差的作用:我们将AI视作人类,而人类本身偏好确定性而非模糊性,偏好自信而非怀疑。
用户的高估倾向:
- 可能高估智能机器的能力。
- 潜意识地将自信与权威性关联。
- 更可能“赞同”AI给出的自信答案,而不太可能挑战那些以更权威口吻表达的答案。
- 研究证实:用户也倾向于高估LLM答案的准确性。
缓解策略:开发者与用户的共同责任
开发者的挑战
需要在多个层面应对准确性挑战,以缓解过度自信:
- LLM生成信息的准确性。
- LLM对自身知识“感知”的准确性。
- 用户对LLM实际答案感知的准确性。
用户的应对策略
用户需意识到AI的缺陷,并采取措施获取最准确可靠的信息:
- 交叉验证:在不同LLM间核对答案,或使用非AI来源进行验证。
优化提问方式:
- 要求AI明确说明其不确定性。
- 要求AI展示其得出答案的推理过程。
- 要求AI对不同答案选项给出自己的置信度评级。
- 让AI扮演不同的“对抗性”角色以压力测试其答案。
系统级风险
若没有缓解措施作为保障,并且随着AI输出被越来越多地用于训练新的AI,将出现第三阶段的风险:过度自信等偏差将作为一种系统级属性出现。