智能的岔路口:AI的计算与人类的判断
核心观点
- AI擅长处理模式清晰的任务,但在模糊与风险并存的“灰色地带”表现不佳。
- 人类判断的核心在于对后果的考量与承担,而AI的决策缺乏这种“重力感”。
- 二者的根本差异源于其“智能架构”的本质不同:AI是计算与统计,人类是判断与责任。
一项医学AI研究的启示
西奈山伊坎医学院的一项研究评估了健康版ChatGPT在60个临床医生编写的患者场景中的表现。
- 关键发现:在医生一致认为需要急诊护理的病例中,有52%的情况下,ChatGPT未推荐急诊。
表现模式:
- 在处理常规主诉和教科书式的明确急症时,表现良好。
- 但在临床体征微妙、判断错误代价高昂的“灰色地带”中,表现不佳。
示例:病因不明的腹痛或发热患者。其表现可能不典型,生命体征未达极端,实验室数据不全。有经验的临床医生能感知其“发展趋势”,而不仅仅是“当前快照”,这常常促使他们在确诊前就采取升级处理。
这项研究揭示的“倒U型曲线”(在简单和极难情况下表现好,在中等难度/高模糊性情况下表现差)不仅是产品评估,更可能反映了AI的认知特征。
架构决定局限
AI在此类情况下的“失败”并非由于鲁莽,而是其设计使然。
- 大语言模型是计算引擎:它们聚合海量数据集中的模式,生成在训练数据中统计上连贯的回应。
- 核心局限:当结构清晰时,它们表现出色;当模糊性与风险相交时,其计算脆弱性就会危险地显现。
相比之下,临床医生在灰色地带中:
- 不仅计算可能性,更会“倾向于”考虑后果。
- 只要存在不良结果的微弱可能性,审慎的做法通常是升级处理——这可能不符合统计最优解。
- 这种决策权衡了判断错误的代价,医生与患者共同承担结果,正是这种“共同承担”塑造了决策。
AI的计算可以在参数内优化,其风险评估也可以被调校得更谨慎。但它并不置身于诊室之中,也不承受错误带来的实际影响。它产出最符合数据分布的答案,却体验不到错误的“重力”。
计算与判断的本质区别
这是更根本的区分:
- 计算:遵循规则(即使是概率性规则),在训练数据和目标函数定义的框架内运作。在其边界内可以做到穷尽。
判断:以不同方式运作,它诠释那些无法整齐归入预定义类别的情境。
- 人类判断会问:“这里什么最重要?” 而不仅仅是“什么最可能发生?”
- 它会在必要时重新审视决策框架本身。
在医学中,AI将是强大的工具并扮演日益重要的角色。但我们必须认识到,我们面对的是两种并不相同的智能架构。它们可能协同工作,形成一种“视差认知”:
- 当今的AI:代表了计算能力的巨大扩展。
- 人类认知:其最独特之处在于经典的“判断力”,并植根于后果与个人经历之中。
流畅不等于审慎
当AI输出的流畅性让我们误以为是审慎时,我们就有可能让计算系统承担需要判断力的角色。
- 在医学中,这种混淆会迅速显现。
- 在日常生活中,它可能更隐蔽(例如依赖算法推荐和排名),我们开始将决策视为效率问题。
AI的差异并非缺陷或恶意。它所产生的是一种“反智能”——并非缺乏智能,而是智能的结构性倒置。它产生连贯性却没有内在体验,生成答案却并不生活在这些答案生效并产生后果的世界里。这种区别在模糊性与后果相交的地方最为重要。
我们自身认知的岔路口
计算智能将继续扩展,这是有价值且变革性的。它能增强临床护理、研究和医患沟通。与此同时,我们必须对“判断”是什么以及它在哪里不可或缺保持清醒。
- 判断不仅仅是调整大语言模型的训练阈值,它是在一个结果需要被“亲身承受”的世界中的一种取向。
- 更深层的问题不在于机器是否会变得更强大(答案显然是肯定的),而在于我们——临床医生、教师、父母——是否能持续关注“优化”与“责任”之间的区别。
- 如果这种区别变得模糊,发生变化的将不止是技术,我们自身的认知也可能开始倾向于计算上的便利。
这项临床研究也是一次哲学检验,它表明:智能不止有一种形式。