《探索 | 科学家提出存内计算全新技术路径,提升AI模型计算能效3个数量级》

  • 来源专题:光电情报网信息监测服务平台
  • 编译者: 胡思思
  • 发布时间:2024-10-28
  • 随着大数据时代 AI 模型参数量激增,AI 模型推理和训练的成本日益增高,使得 AI 模型难以有效地被布署到边缘计算设备中。

    存内计算技术是加速 AI 模型的主流路径,它通过在存储器内部原位计算减少数据的搬运,来提高芯片算力与能效。

    但是,需要了解的是,传统存内计算(single-IMC,single-in-memory computing)架构仍然需要在存储器和处理器之间进行数据传输,仅部分地解决了数据搬运的问题,限制了 AI 模型加速器的进一步发展。

    为了解决上述问题,北京大学孙仲研究员团队设计了一种全新技术路径的存内计算架构,称为“双存内计算”(dual-IMC,dual in-memory computing)。

    该架构能够最大程度地加速 AI 模型中的矩阵-向量乘法(MVM,matrix-vector multiplication)计算,如卷积神经网络、二值神经网络、Transformer

    模型等,从而实现高速、高能效的 AI 模型推理和训练。

    该架构基于非易失性存储器阵列设计,使 MVM 的矩阵、向量元素均存储在内存阵列中并参与原位 MVM 运算。

    “这种独特的设计可完全消除数据的搬运,最大程度地发挥存内计算的优势,从而实现真正意义上的存储器内计算。”孙仲表示。

    与传统的存内计算架构相比,dual-IMC 架构使 MVM 的能效提高了 3 到 4 个数量级,有望应用于边缘计算系统和终端设备部署中,以构建先进的神经网络加速器。

    北京航空航天大学康旺教授对该研究评价称,该团队提出并演示了一种用于矩阵向量乘法的全存内计算新方法,使得参与运算的权重矩阵和向量都可以存储在阵列中并参与原位计算,从而有望完全消除数据移动,提高存内计算的能效。

    他指出,“该工作虽然目前仅展示了较小规模的演示,但理论上可以扩展到更大规模阵列。这是一个很新颖的想法,相信未来它会对存内计算领域(学术界和业界)产生实际的影响。”

    目前,神经网络计算加速是发展计算范式和架构的主要驱动力。在神经网络的推理和训练过程中,计算量最大的操作为 MVM。因此,利用非易失性存储器加速 MVM 成为当下学术界和工业界关注的热点方向。

    图 存内计算技术全谱

    但是,在加速 MVM 的传统存内计算架构中,只有一个输入操作数,即权重矩阵存储在内存阵列中,而另一个输入操作数,即输入向量仍然要在传统的冯·诺依曼架构中流动。

    这需要通过访存片外主存和片上缓存,再经过数模转换之后作为模拟电压向量输入到阵列中进行 MVM 计算。

    也就是说,传统的 single-IMC 仅部分地解决了冯·诺伊曼瓶颈问题,其仍然会带来数据搬运和数模转换的沉重负担,这从根本上限制了计算性能的提高。

    此外,为了保证高计算并行度,计算时要同时开启多行字线,这会导致阵列中产生较大的电流,这是 single-IMC 架构的另一个缺点。

    图 传统的单存内计算

    2023 年,孙仲课题组与合作者在 Nature

    Electronics 上发表论文,提出存内计算技术全谱的概念,并对所有类型的存内计算技术进行了原理性的分类。

    此外,该团队还在 Science Advances 报道了一种基于阻变存储器阵列的新型模拟计算电路,使微秒级一步求解复杂的压缩感知还原成为可能]。

    受存内计算技术全谱概念的启发,研究人员设计了将两个输入操作数都存储在内存中的 dual-IMC 架构,其中矩阵(神经网络权重)和向量(神经网络输入)都存储在同一阵列中,以参与加速 MVM 的原位计算。

    双存内计算架构基于团队在压缩感知还原电路设计中原创的电导补偿原理设计,仅需要施加极为简单的独热编码的数字电压,就可以完成 MVM 计算。

    计算过程中无需数模转换器,从而进一步节省芯片面积,优化了计算的延时和功耗。此外,每次 MVM 计算仅激活存储器阵列的一行字线,这能够减少阵列中累积的电流。

    因此,dual-CIM 架构完全消除了片外动态随机存取存储器(DRAM,Dynamic Random Access Memory)和片上静态随机存取存储器(SRAM,Static

    Random-Access Memory)访存造成的额外延时和功耗,同时也避免了这些易失性存储器的静态功耗。

    王识清表示:“这一创新的技术路径不仅简化了硬件结构,而且在性能上也取得了显著的提升。即便在最坏情况,在需要对特殊介质进行写入时,双层存内计算架构仍能提供数倍的性能提升。”

    图 双存内计算(dual-IMC)架构

    基于制备的阻变存储器阵列,该团队对 dual-IMC 架构进行了概念性的实验验证,并演示了该架构在压缩信号还原、卷积神经网络和二值神经网络中的应用。

    总的来说,该研究为后摩尔时代的计算性能提升提供了一种全新的技术方案,通过完全在存储器内部进行的矩阵-向量乘法操作,实现了显著的加速和能效优化,为神经网络和其他重要算法的硬件实现提供了新的可能性。

  • 原文来源:https://doi.org/10.1016/j.device.2024.100546
相关报告
  • 《探索 | 科学家开发模仿大脑功能的计算机芯片》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2022-07-08
    • 一种新的微电子设备可以通过使用电脉冲按需对计算机硬件进行编程和重新编程。一个包括美国能源部(DOE)阿贡国家实验室在内的多机构合作,已经创造了一种材料,可用于制造能够做到这一点的计算机芯片。它通过使用所谓的“神经形态”电路和计算机架构复制大脑功能来实现这一目标。普渡大学教授Shriram Ramanathan领导了该团队。 “人类的大脑实际上可以因学习新事物而发生变化,”论文合著者Subramanian Sankaranarayanan说,他在阿贡国家实验室和伊利诺伊大学芝加哥分校担任联合职务。“我们现在已经创造了一个设备,让机器以类似大脑的方式重新配置它们的电路。” 有了这种能力,基于人工智能的计算机可能会更快、更准确地完成困难的工作,同时使用更少的能源。一个例子是分析复杂的医疗图像。自动驾驶汽车和太空中的机器人可能会根据经验重新连接它们的电路,这是一个更未来的例子。 新设备中的关键材料由钕、镍和氧组成,被称为钙钛矿镍酸钕。研究小组给这种材料注入了氢气,并在其上附加了电极,允许在不同电压下施加电脉冲。 Sankaranarayanan说:“氢气在镍酸盐中的数量以及它的位置,改变了电子特性。而我们可以通过不同的电脉冲来改变它的位置和浓度。” “这种材料具有多层次的特性,”论文共同作者、阿贡国家实验室物理学家周华补充说。“它具有日常电子产品的两种常见功能--开启和阻断电流,以及储存和释放电力。真正新的和引人注目的是增加了与大脑中突触和神经元的独立行为类似的两种功能。 一个神经元是一个单一的神经细胞,通过突触与其他神经细胞连接。神经元发起对外部世界的感应。” 在其贡献中,阿贡团队对不同电压下的镍酸钕装置所发生的事情进行了计算和实验表征。为此,他们依靠能源部科学办公室在阿贡的用户设施:先进光子源、阿贡领导计算设施和纳米材料中心。 实验结果表明,只要改变电压就能控制氢离子在镍酸盐中的移动。一定的电压使氢气集中在镍酸盐中心,产生类似神经元的行为。不同的电压使氢离子从中心穿梭出来,产生类似突触的行为。在不同的电压下,氢的位置和浓度会引起计算机芯片的通断电流。 阿贡国家实验室科学家Sukriti Manna说:“我们在原子尺度上揭示这一机制的计算是超级密集的。”该团队不仅依靠阿贡领导层计算设施的计算能力,而且还依靠国家能源研究科学计算中心,这是美国能源部科学办公室在劳伦斯伯克利国家实验室的用户设施。 该机制的确认部分来自高级光子源33-ID-D光束线上的实验。 周华说:“多年来,我们与普渡大学的小组建立了非常富有成效的伙伴关系。在这里,研究小组准确地确定了在不同电压下镍酸盐内部的原子排列。特别重要的是跟踪材料在原子尺度上对氢气运动的反应。” 利用该团队的镍酸盐设备,科学家们将努力创建一个人工神经元和突触的网络,可以从经验中学习和修改。这个网络将随着新信息的出现而增长或缩小,从而能够以极高的能源效率工作。而这种能源效率将转化为更低的运营成本。 以该团队的设备为构件的大脑启发式微电子技术可能有一个光明的未来。这一点尤其重要,因为该装置可以在室温下通过与半导体行业实践相兼容的技术制造。 阿贡团队的相关工作得到了美国能源部基础能源科学办公室,以及空军科学研究办公室和国家科学基金会的资助。
  • 《探索 | 科学家提出由准粒子驱动的超亮光源》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2023-10-23
    • 一个国际科学家团队正在重新思考辐射物理学的基本原理,目的是创造超亮光源。在《自然光子学》发表的一项新研究中,来自葡萄牙高级技术研究所、罗切斯特大学、加州大学洛杉矶分校和法国应用光学实验室的研究人员提出了使用准粒子创造光源的方法,这种光源与当今最先进的光源一样强大,但体积要小得多。 准粒子是由许多同步运动的电子形成的。它们可以以任何速度传播,甚至比光速还快,并且能够承受强大的力量,就像黑洞附近的力量一样。 使用准粒子来制造与当今最先进的光源一样强大的光源 激光能量学实验室的高级科学家、机械工程系助理教授、光学研究所副教授约翰·帕拉斯特罗说:“准粒子最吸引人的方面是它们能够以控制单个粒子的物理定律所不允许的方式运动,” Palastro和他的同事通过在欧洲高性能计算联合计划提供的超级计算机上运行先进的计算机模拟,研究了等离子体中准粒子的独特性质。他们看到了基于准粒子的光源的潜在应用,包括用于扫描病毒的非破坏性成像、理解光合作用等生物过程、制造计算机芯片以及探索行星和恒星中的物质行为。 IST的博士生、该研究的主要作者Bernardo Malaca说:“灵活性是巨大的,即使每个电子都在进行相对简单的运动,所有电子的总辐射可以模仿比光速更快或振荡的粒子的辐射,即使局部没有单个电子比光速更快或振荡的粒子。” 准粒子光源与现有的自由电子激光器等光源相比具有明显的优势,自由电子激光器稀少且庞大,对大多数实验室、医院和企业来说是不切实际的。根据该研究提出的理论,准粒子可以产生极其明亮的光线,只需要很小的传播距离,这可能会在全球各地的实验室引发广泛的科技进步。