AI的过度自信：人类认知偏差的算法镜像与应对

本文目录：

核心观点
人类认知偏差如何影响AI
AI中的过度自信偏差
在开发阶段的表现
研究与量化
缓解尝试
用户互动与反馈的放大效应
缓解策略：开发者与用户的共同责任
开发者的挑战
用户的应对策略
系统级风险

核心观点

人工智能（尤其是大语言模型）通过训练数据、模型假设和用户反馈循环，继承了人类的认知偏差。
过度自信作为一种典型的人类元认知偏差，正日益频繁地出现在大语言模型的输出中。
大语言模型自身和用户都倾向于高估模型答案的正确性。
缓解这一问题需要开发者的策略和用户的警惕性双管齐下。

人类认知偏差如何影响AI

AI由人类创造，人类的认知缺陷会渗入AI技术。
当训练数据在输入选择、测量或标注过程中存在偏差时，算法和输出结果也会产生偏差。
常见的偏差领域包括：
- 人口统计学偏差：例如性别刻板印象或少数群体的代表性不足。
- 文化偏差：例如以西方为中心的规范。
拟人化偏差：人类倾向于像与人类互动一样与AI（如ChatGPT）交互，而AI则学会迎合这种期望。

AI中的过度自信偏差

过度自信是人类普遍存在的认知偏差，表现为对自身能力或判断的过高估计。尽管这通常与自我反思相关，但AI模拟人类思维且由人类构建，因此同样会表现出过度自信。

在开发阶段的表现

数据选择：开发者可能过度自信地选择数据（例如，偏爱新闻中做出确定性预测的自信陈述）。
数据解释：在标注时可能过于武断（例如，将可能为其他动物的图像标注为“猫”）。
模型构建：为避免不确定性，可能倾向于生成单一答案而非概率分布。
模型架构本身：容易导致过度泛化，并常使用表达确定性的语言。
- 示例：将“用了几个月”的产品描述为“全新”。
- 模式识别问题：在不存在模式的地方“看到”模式，或基于概率补全模式，可能导致“幻觉”产生。
- 结果：过度自信的AI会产生错误答案（如错误的数学计算或虚假归因），并以自信的方式传达给用户。

研究与量化

研究关注点在于模型表达出的置信度与其实际准确性之间的差距。
一项研究让5个LLM回答1万个它们知道正确答案的问题，并询问其对自己答案的信心度。
结果发现，这些模型高估其答案正确性的程度在20%（GPT o1）到60%（GPT 3.5） 之间。

缓解尝试

研究者尝试通过多种方式校准LLM的准确性或减少其过度自信，其中一些方法类似于用于纠正人类过度自信的“去偏差”技术：

使用选择题格式：将正确答案与可信的干扰项放在一起，类似于要求过度自信的个体“考虑其他可能答案”。

用户互动与反馈的放大效应

在用户互动与反馈阶段，AI的过度自信可能被传递并进一步放大，这主要涉及基于人类反馈的强化学习。

拟人化偏差的作用：我们将AI视作人类，而人类本身偏好确定性而非模糊性，偏好自信而非怀疑。
用户的高估倾向：
- 可能高估智能机器的能力。
- 潜意识地将自信与权威性关联。
- 更可能“赞同”AI给出的自信答案，而不太可能挑战那些以更权威口吻表达的答案。
研究证实：用户也倾向于高估LLM答案的准确性。

缓解策略：开发者与用户的共同责任

开发者的挑战

需要在多个层面应对准确性挑战，以缓解过度自信：

LLM生成信息的准确性。
LLM对自身知识“感知”的准确性。
用户对LLM实际答案感知的准确性。

用户的应对策略

用户需意识到AI的缺陷，并采取措施获取最准确可靠的信息：

交叉验证：在不同LLM间核对答案，或使用非AI来源进行验证。
优化提问方式：
- 要求AI明确说明其不确定性。
- 要求AI展示其得出答案的推理过程。
- 要求AI对不同答案选项给出自己的置信度评级。
- 让AI扮演不同的“对抗性”角色以压力测试其答案。

系统级风险

若没有缓解措施作为保障，并且随着AI输出被越来越多地用于训练新的AI，将出现第三阶段的风险：过度自信等偏差将作为一种系统级属性出现。

AI的过度自信：人类认知偏差的算法镜像与应对

核心观点

人类认知偏差如何影响AI

AI中的过度自信偏差

在开发阶段的表现

研究与量化

缓解尝试

用户互动与反馈的放大效应

缓解策略：开发者与用户的共同责任

开发者的挑战

用户的应对策略

系统级风险

添加新评论

其它

AI的过度自信：人类认知偏差的算法镜像与应对

核心观点

人类认知偏差如何影响AI

AI中的过度自信偏差

在开发阶段的表现

研究与量化

缓解尝试

用户互动与反馈的放大效应

缓解策略：开发者与用户的共同责任

开发者的挑战

用户的应对策略

系统级风险

相关文章

添加新评论

其它