本文目录:

核心观点

大型语言模型(LLM)驱动的聊天机器人能够通过训练数据模仿人类性格特征,形成一种“合成人格”。剑桥大学与Google DeepMind的研究团队开发了一种经过科学验证的人格测试方法,用于评估AI的人格特质,该研究对AI对齐、风险缓解及伦理讨论具有重要意义。


拟人化AI的双刃剑

  • 人格模仿的来源:LLM通过海量人类生成的数据进行训练,使其输出能够模仿人类特征,从而表现出一种合成人格。
  • 积极影响:更具人格化的聊天机器人能提供更吸引人的用户体验,促进人机连接。
  • 潜在风险:这种拟人化带来的说服力可能产生负面影响,其影响力未必总是积极的。
  • 评估的重要性:随着LLM驱动的对话代理被全球公众广泛使用,评估这些模型中嵌入的合成人格特质变得愈发关键。

为何关注AI人格

  • 使用普及:2025年一项YouGov调查显示,56%的美国成年人使用AI工具。
  • 青少年高使用率:2025年皮尤研究中心调查指出:

    • 15-17岁美国青少年中,68%使用AI聊天机器人。
    • 13-14岁青少年中,57%使用。
    • 约三分之一的青少年每日与AI聊天机器人互动。
  • 常用聊天机器人排名(青少年群体)

    1. ChatGPT (59%)
    2. Gemini (23%)
    3. Meta AI (20%)
    4. Copilot (14%)
    5. Character.ai (9%)
    6. Claude (3%)
  • 研究必要性:尽管已有研究尝试用心理测量测试评估LLM的人格,但科学上仍需在LLM语境下,对这些测量的可靠性与有效性进行正式评估。

针对LLM的心理测试

  • 心理测量学定义:根据美国心理学会,心理测试用于测量行为或心理属性,如人格、情绪功能、智力、认知、态度、价值观、兴趣等。它是标准化教育测试、临床评估及大规模民意调查的基础。
  • 研究方法:研究团队创建了一个“结构化提示”框架,指导如何对LLM实施心理测量测试,并评估了18个LLM在11项不同人格相关测试中的表现。

    • 评估的模型包括:PaLM, Llama 2, Llama 2-Chat, Mistral, Mixtral, GPT等。
  • 关键发现

    • 该方法能够可靠地测量LLM输出的人格特质。
    • LLM的输出可以被塑造以模仿人类的人格剖面。
  • 研究意义:这项工作对AI对齐与危害缓解具有重要启示,并为有关AI拟人化、个性化及潜在误用的伦理讨论提供了依据。

标签: AI伦理, AI人格, 心理测量

添加新评论