《前沿 | 悉尼大学华人团队提出新型Transformer架构,让AI预测人脑未来10分钟状态》

  • 来源专题:光电情报网信息监测服务平台
  • 编译者: 胡思思
  • 发布时间:2025-01-20
  • 近日,一篇由澳洲悉尼大学团队牵头完成的论文在 X 上引起关注,该校的博士生孙艺菲(Yifei Sun,音)是论文第一作者。

    基于人类连接组计划的功能性磁共振成像数据,他们使用 Transformer 预测了人脑静息状态(human brain resting states)(注:人类连接组计划是美国国立卫生研究院于 2009 年开始资助的一个 5 年项目,由几所研究机构分成两组进行)。

    具体来说,他们提出一种基于时间序列的 Transformer 架构,在功能性磁共振成像采集中观察到的一系列先前时间点的情况下,成功预测了大脑 379 个灰质区域的大脑状态,单时间点预测均方误差为 0.0013。

    研究中,他们将大脑状态预测问题构建为一个自回归任务,在给定序列的情况下来预测下一个时间元素。

    借此发现,该模型可以准确预测大脑的即时状态,其中预测 5.04 秒的大脑状态误差较小,预测 10 分钟以上的大脑状态与人类功能连接组的平均值一致(注:功能连接,是指大脑不同脑区之间在功能上的相互关联和影响,主要通过分析不同脑区记录的信号来计算反映不同脑区关系强弱的某种指标)。

    本次方法也能学习大脑状态随时间的时间依赖性,基于 21.6s 的功能性磁共振成像数据可以准确预测约 5.04s 的状态。

    此外,即使预测误差随着时间的推移而累积,所生成的功能性磁共振成像大脑状态,也能反映功能连接的结构。另据悉,本次研究的相关代码已开源(https://github.com/syf0122/brain_state_pred)。

    基于自注意力机制力的架构,能充当大脑未来状态的“预言师”

    人脑是一个复杂的动态系统,有数百亿个神经元和数万亿个突触连接。了解人脑的动态机制始终是神经科学领域的首要任务,因为它对于揭示认知、情感、语言和其他更高层次人类智能的起源至关重要。

    此外,这种理解对于破译阿尔茨海默病和精神分裂症等脑部疾病背后的机制至关重要。同时,脑机接口(BCI,brain-computer interfaces)和大脑启发的 AI 技术正在发展成为当前的技术趋势,因此学习大脑机制是模仿人脑的重要一步。

    功能性磁共振成像是一种广为使用的非侵入性技术,它能在中观尺度上观察整个大脑的空间动态,以及在第二尺度上观察时间动态。

    尽管人们在绘制大脑功能组织方面取得了重大进展,例如用静息态脑功能磁共振成像重建了内在网络。但是,大脑的功能连接——是了解大脑健康和心理健康的重要生物标志物。

    而当大脑没有执行特定任务时(即静息状态),大脑活动到底是如何出现?对于这一问题仍然没有得到解答。此外,从静息状态获取的具体序列脑状态是否可以预测?这仍然是一个未知数。

    而假如能够解决这一问题,则有望缩短有困难患者或残疾患者的功能性磁共振成像扫描时间。如果可以预测大脑状态,那么某些致命性脑部疾病(如癫痫)的疼痛和伤害也可以避免或减少。

    同时,预测大脑状态可以为脑机接口技术铺平道路,有望让该技术实现更直观、更有效的沟通。

    自从相关研究人员于 2017 年引入多头自注意力(Multi-headed?Self-attention)以来,Transformer 架构在深度学习中可谓无处不在,并主要专注于处理序列任务和图像多任务。

    ChatGPT 便是其中一个成功案例,它展示了

    Transformer 在处理自然语言顺序信息上的强大功能。Transformer 能从知识库中学习模式,并能在连续对话的背景下给出答案。

    鉴于它们能够找到基于相关性和与图论联系的数据 tokens 之间的远距离关系,本次研究团队认为基于自注意力机制力的架构,能够从连续的大脑活动中预测即将到来的大脑状态。

    最近,有研究人员证明 Transformer 架构在分析功能性磁共振成像数据具备年龄预测、性别分类和疾病分类方面的潜力。

    此外,脑语言模型(BrainLM,brain language model)是一种能够监测大脑动态活动的基础模型。在使用脑语言模型的时候,需要经过预先训练以便进行掩蔽预测,然后针对大脑状态预测进行微调。

    然而,脑语言模型需要使用大型数据集进行预训练,而大脑状态预测需要相对较长的时间序列(180 个时间点)。

    因此,假如训练一个能够根据更短的输入时间序列来预测大脑状态的模型,就可以大大缩短功能性磁共振成像的扫描时间。


    采用 1003 名健康年轻人的 3.0T 功能性磁共振成像数据

    基于此,研究人员使用了人类连接组计划的年轻人数据集的静息状态功能性磁共振成像数据。他们采用 1003 名健康年轻人的 3.0T 功能性磁共振成像数据,并排除了其中 110 名成像缺失或不完整的受试者。

    这些受试者都曾使用四次功能性磁共振成像扫描,每次扫描 1200 个时间点,并采用存储基于表面的灰质数据的 CIFTI 格式(注:CIFTI 的英文全称是 Connectome Imaging Format for Tomography,它是一种用于存储和表示大脑连接组数据的文件格式)。

    人类连接组计划的功能性磁共振成像数据具有 2mm 的各向同性空间分辨率和 0.72s 的时间分辨率。

    除了人类连接组计划数据集已能提供的最小预处理之外,该团队还进行了几个额外的预处理步骤,以便进一步地清理数据,并为训练和测试 Transformer 准备数据。

    研究中,他们使用高斯滤波器对功能性磁共振成像数据进行空间平滑处理,高斯滤波器在 CIFTI 格式中将半峰全宽设置为 6mm,以便降低噪声和提高信噪比(注:半峰全宽,是指在色谱分析中色谱峰高一半处的峰宽度)。

    然后,他们采用带通滤波器滤除一些不感兴趣的噪声,同时将时间信号保持在 0.01Hz 至 0.1Hz 的范围内。

    为了将所有样本放在一个共同尺度上,他们针对时间序列进行 z 分数变换,以便获得零时间均值和单位标准差(注:z 分数,是一个数与平均数的差再除以标准差的过程)。

    接着,他们使用多模态分割图谱,计算了 379 个大脑区域的平均功能性磁共振成像时间序列,其中包括 360 个皮质区域和 19 个皮质下区域。基于此,他们使用每个时间点信号强度为 379 个区域的向量来表示大脑状态。

    人脑是一个动态系统,它的当前状态与之前状态有关。因此,研究人员也探索了这样一个问题:在给定一系列先前大脑状态的情况下,是否可以预测单个大脑状态?为了模拟这些预测,他们重新设计一个为流感预测(influenza forecasting)开发的现有时间序列 Transformer 模型。该模型由 Transformer 编码器和 Transformer 解码器组合而来。

    在使用时,Transformer 将由具有给定窗口大小的 token 序列表示的时间序列数据作为输入。由于自注意力机制会将标记关系视为一个图,因此可以使用正弦函数和余弦函数的位置编码,来添加相对的时间信息。

    网络的编码器,包含四个具有自关注和前馈的编码层。编码层,则包含八个注意头。最终,这一编码堆栈可以生成编码器输出。

    研究人员把编码器输入的最后一个时间点与编码器输出加以结合,以此作为解码器的输入,这时解码器会被定义为四个解码层的堆栈,而这些解码层也由自注意力机制和前馈层组成。

    随后,全连接层会将解码器层堆栈的输出映射到目标输出形状。与流感流行病例的时间序列 Transformer 不同,该团队的模型能够预测一系列的未来时间点,并能通过采用前瞻性掩蔽来预测基于过去的数据。

    生成 1150 个时间点的合成时间序列的预测结果

    当将大脑状态预测问题定义为自回归任务时,研究人员使用均方误差(MSE,mean squared error)作为损失函数。他们首先针对 40 名受试者的数据进行不同窗口大小的初步测试。

    具体来说,他们输入了时间序列之间的重叠,因此每个功能性磁共振成像会话数据能够产生 1150 个训练样本。

    训练期间,研究人员从所有受试者和所有会话的训练数据中随机选择样本。训练完毕 Transformer 网络之后,研究人员使用模型此前没有见过的受试者的功能性磁共振成像数据评估其性能。

    首先,他们测试了该模型从真实功能性磁共振成像数据中预测单个大脑状态的能力。然后,他们使用相同的输入序列进行类似测试,其中大脑状态的顺序是随机的。

    研究人员假设:当以随机序列输入相同的数据时,一个能够学习顺序信息和大脑动力学的模型应该会产生更高的误差。

    为了验证这一假设,他们针对两种测试的均方误差进行比较,并对两组均方误差结果进行了配对 t 检验(paired t-test)(注:配对 t 检验是配对样本 t 检验的简称,用于检验相关或相互依赖的配对观测值之间的平均差是否存在显著差异)。

    之后,他们评估了模型的这一能力,即采用有限的真实功能性磁共振成像数据和不断增加的合成状态,来预测一系列大脑状态的能力。

    具体来说,他们使用 30 个真实的功能性磁共振成像时间点来预测下一个时间点,然后将该预测与真实时间序列连接起来,并将输入窗口移动一步,以迭代的方式囊括新的预测时间点,直到合成与真实数据(1200 个时间点)长度相同的时间序列序列。

    通过此,研究人员生成 1150 个时间点的合成时间序列的预测结果,并计算了预测时间序列和真实功能性磁共振成像数据之间的均方误差,以及每个预测和真实大脑状态之间的斯皮尔曼相关系数,以便可以测试单调相关性(monotonic correlations)(注:斯皮尔曼相关系数,是一种非参数统计方法,用于评估两个变量之间的单调关系,而非用于评估线性关系)。

    同时,研究人员使用区域时间序列之间的皮尔逊相关系数,计算了真实功能性磁共振成像时间序列和预测功能性磁共振成像时间序列的功能连接矩阵(注:皮尔逊相关系数,是一种统计度量,用于量化两个变量之间的线性关系强度和方向)。至此,本次研究正式进入尾声。

    未来,研究人员希望通过减轻误差累积问题来改进这种 Transformer 架构,以便生成更准确的预测,这将有助于研究那些长期无法进行功能性磁共振成像扫描的人群的大脑功能。

    同时,研究人员还计划通过使用迁移学习(transfer learning)来开发个性化模型。此外,研究人员此次提出的方法还具有一定的可解释性,因此也能用于探索人脑的功能原理。

  • 原文来源:https://arxiv.org/pdf/2412.19814
相关报告
  • 《前沿 | AI方法秒出分子设计+合成步骤》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:胡思思
    • 发布时间:2025-04-14
    • 寻找具备研发新药物和新材料所需特性分子的过程既繁琐又昂贵,需要耗费大量计算资源,研究人员往往要花费数月时间,才能在浩如烟海的候选分子中筛选出数量有限的目标分子。 像 ChatGPT 这样的大语言模型有望简化这一流程,然而,让大语言模型像理解句子中的单词那样理解和推理构成分子的原子与化学键却存在技术壁垒。 近期,麻省理工学院和 MIT-IBM 沃森人工智能实验室的研究人员开发出一种颇具前景的方法,利用基于图的模型(Graph-based Model)来增强大语言模型(这些模型专为生成和预测分子结构而设计)。 该方法通过基础大语言模型解析用户自然语言需求后,能在分子设计、原理阐释及合成路线规划等环节智能切换 AI 模块。 它将文本、图形和合成步骤生成交织在一起,把单词、图形和反应整合为一个通用词汇表,供大语言模型使用,实现多模态信息无缝衔接。 与现有的基于大语言模型的方法相比,这种多模态技术生成的分子更符合用户设定的规格,有效合成方案成功率从 5% 提升至 35%。 该方法的效果优于规模比它大 10 倍以上、仅使用文本表示来设计分子和合成路线的大语言模型,这表明多模态融合是新系统成功的关键。 “这有望成为一个‘端到端’的解决方案,能实现分子设计与合成全过程的自动化。如果大语言模型能在几秒钟内给出答案,将为制药公司节省大量时间。”麻省理工学院研究生、该技术论文的合作者 Michael Sun 说道。 这项研究成果将在国际学习表征会议上发表。论文的合作者还包括圣母大学研究生 Gang Liu、麻省理工学院电气工程与计算机科学教授 Wojciech Matusik,以及 MIT-IBM 沃森人工智能实验室资深科学家 Jie Chen。这项研究部分由美国国家科学基金会、海军研究办公室以及 MIT-IBM 沃森人工智能实验室资助。 优势互补 大型语言模型并非为理解化学的微妙之处而设计,这也是它们难以进行逆向分子设计的原因之一。逆向分子设计是指识别具有特定功能或特性的分子结构的过程。 大语言模型将文本转换为一种名为标记的表示形式,用于按顺序预测句子中的下一个单词。但分子是由原子和化学键组成的“图形结构”,不存在特定顺序,这使得它们很难编码为顺序文本。 另一方面,基于图的模型将原子和分子键表示为图形中相互连接的节点和边。尽管这些模型在逆向分子设计中应用广泛,但它们需要复杂的输入,无法理解自然语言,且生成的结果可能难以解释。 麻省理工学院的研究人员将大语言模型与基于图的模型整合到一个统一框架中,实现了优势互补。 Llamole(Large Language Model for Molecule Discovery,分子发现大型语言模型)利用基础大语言模型作为“智能调度员”,理解用户的查询,即用户用通俗语言对具有特定属性分子的需求。 例如,用户在寻找一种分子量为 209、具有特定键特性,且能穿透血脑屏障并抑制 HIV 的分子。 当大语言模型响应用户查询预测文本时,系统会通过独特的“触发令牌”机制,在三大功能模块间智能切换:1、结构生成模块(基于图扩散模型,根据输入条件构建分子骨架);2、语义转换模块(通过图神经网络将分子结构重新编码为大语言模型可理解的词元);3、合成规划模块(根据中间体结构预测反应路径,逆向推导从基础原料到目标分子的完整合成方案)。 “这样做的精妙之处在于模块间的信息闭环,大语言模型在激活特定模块前生成的所有内容,都会输入到该模块中。该模块会以与之前一致的方式进行工作。”Michael Sun 说道,“同样,每个模块的输出都会经过编码,并反馈到大语言模型的生成过程中,这样大语言模型就能了解每个模块的作用,并继续根据这些数据预测标记。” 更优、更简单的分子结构 最终,Llamole 会输出分子结构图像、分子文本描述以及分步合成计划,该计划详细说明了如何合成分子,包括具体的化学反应。 在设计符合用户规格分子的实验中,Llamole 的表现优于 10 种标准大语言模型、4 种微调大语言模型,以及最先进的特定领域方法。同时,它通过生成更高质量的分子,将逆合成规划成功率从 5% 提升至 35%,这意味着这些分子结构更简单,构建模块成本更低。 “大语言模型自身很难确定如何合成分子,因为这需要大量多步骤规划。我们的方法能生成更优且更易合成的分子结构。”Gang Liu 说道。 为了训练和评估 Llamole,研究人员从头构建了两个数据集,因为现有的分子结构数据集细节不足。他们用 AI 生成的自然语言描述和自定义描述模板,对数十万个专利分子进行了扩充。 他们为微调大语言模型构建的数据集包含与 10 种分子特性相关的模板,因此 Llamole 的一个局限在于,它被训练为仅考虑这 10 种数值特性来设计分子。 在未来的研究中,研究人员希望扩展 Llamole 的功能,使其能够考虑任何分子特性。此外,他们还计划改进图形模块,提高 Llamole 的逆合成成功率。 从长远来看,他们希望利用这种方法拓展应用范围,超越分子领域,创建能处理其他图基数据的多模态大语言模型,例如电网中的互连传感器数据或金融市场中的交易数据。 “Llamole 展示了将大型语言模型用作处理文本描述之外复杂数据的接口的可行性,我们预计它们将成为与其他 AI 算法交互以解决各类图形问题的基础。”Jie Chen 说道。
  • 《美国研究团队合作开发出新型高精度模拟芯片架构》

    • 来源专题:集成电路
    • 发布时间:2024-03-26
    • 许多复杂的物理系统可以用耦合的非线性方程来描述,这些方程必须在多个时空尺度上同时分析。然而,复杂系统的直接数值计算往往受到“维度诅咒”的阻碍,随着问题规模的增加,计算资源也需要成倍增加。尽管对精确、高性能计算解决方案的需求正在增长,但传统冯·诺依曼计算架构在速度、能耗和基础设施方面正达到极限。作为复杂物理系统建模的一种有效方法,存内计算绕过了冯·诺依曼体系结构固有的内存处理器瓶颈,具有诱人的发展前景。但是,存内计算受到读取噪声和写入可变性等问题阻碍,限制了高性能计算的可扩展性、准确性和精度。 2024年2月22日《科学》期刊报道,美国TetraMem公司、南加州大学和马萨诸塞大学阿默斯特分校研究团队开发出一种新型高精度模拟芯片架构,通过调整忆阻器实现了前所未有的精度,并设计出一种新的电路架构和编程协议,编程协议在最后一步将模拟计算结果转换为数字从而使用多个相对低精度的模拟设备(如忆阻器)有效表示高精度的数字,使得模拟设备的编程更加快速和精确,并使低精度模拟设备能够执行高精度计算。在集成的忆阻器片上系统上,研究团队通过实验证明了多个科学计算任务的高精度解决方案,实现了高达10-15的高精度解决方案,同时保持了与传统数字方法相比的巨大功率效率优势。 该新型高精度模拟芯片架构不仅适用于神经网络等传统低精度领域,还可扩展至其他存储技术领域,如磁性存储器和相变存储器[1]。 这种技术创新结合了数字计算的精度和模拟计算的节能和高速优势,不仅提高了模拟计算的效率和速度,还能为人工智能和机器学习等领域带来更多应用可能性。 [1] Wenhao Song, Mingyi Rao, Yunning Li, et al. Programming memristor arrays with arbitrarily high precision for analog computing [J]. Science, 2024, 383(6685):903-910. https://www.science.org/doi/10.1126/science.adi9405