本文目录:

核心观点

  • 一项新研究开发了一个名为TRIBE的AI基础模型,能够作为人脑的“数字孪生体”,根据视觉、听觉和语言刺激预测人脑活动。
  • 该模型超越了传统单一功能的AI,能够处理视频、音频和文本等多模态信息,旨在更全面地模拟人脑对自然刺激的反应。
  • 研究利用超过1000小时、涉及720名受试者的fMRI数据训练模型,其预测新刺激、任务和受试者大脑反应的准确性远超传统线性编码模型,有望极大加速神经科学研究。

研究背景与动机

人脑极其复杂,直接在活体人脑上进行实验(in vivo)具有挑战性。AI提供了在计算机模拟环境(in silico)中进行研究的替代方案,可能极大加速关于大脑工作机制的神经科学研究。AI在神经学领域的应用(如成像、诊断、设备、药物研发)正迅速扩展,预计到2030年全球市场规模将达到25亿美元。

然而,现有的AI模型大多是针对特定目的、基于较小数据集训练的“窄点解决方案”(narrow point-solutions),其范围、能力和模态有限。这与能够同时处理多种刺激(如视觉、听觉、语言)的人脑形成对比。


新模型:TRIBE v2

为了创建一个更强大的AI模型,Meta的基础人工智能研究(FAIR)团队开发了一个名为 TRansfomer for In-silico Brain Experiments (TRIBE) 的基础模型(foundation model)。

  • 模型特点:能够处理视频、音频和文本,以预测人脑反应。其最新版本TRIBE v2基于早期架构,该架构曾在计算神经科学领域的Algonauts 2025挑战赛中夺冠。
  • 基础模型概念:指在大量未标记数据上训练的人工神经网络,可用于执行广泛的通用任务,而非单一功能。例如,GPT系列就是支撑ChatGPT的基础模型。

研究目标与方法

研究团队旨在创建一个不仅更灵活、通用,而且能超越仅处理语言数据,同时涵盖声音和视频的基础模型。目标是建立一个足够强大的AI基础模型,能够根据跨语言、音频和视频的更自然刺激,准确预测人脑活动

研究人员(Stéphane d’Ascoli 和 Jean-Rémi King)指出,大脑与算法之间的表征对齐,为建立人脑功能的基础模型指明了一条道路——该模型并非源自第一原理,而是通过将大量大脑反应直接映射到预训练的AI架构中得来。他们的人脑数字孪生提供了一个更集成、多感官的人脑活动视图


数据与成果

研究利用了一个包含超过1000小时fMRI数据、涉及720名受试者的统一数据集

报告显示,该模型能够准确预测新刺激、新任务和新受试者的高分辨率大脑反应,其性能超越了传统的线性编码模型(linear encoding models),在准确性上实现了数倍的提升。


意义与展望

这项研究标志着向创建能够模拟复杂、多感官人脑处理的AI模型迈出了重要一步。这种人脑活动的“数字孪生”模型,有望成为加速神经科学基础研究和应用(如疾病理解、脑机接口开发)的强大工具。

标签: 人工智能神经科学, 数字孪生大脑, 多模态AI模型

添加新评论