《清华大学联合团队:超高性能纯模拟光电计算芯片》

  • 来源专题:光电情报网信息监测服务平台
  • 编译者: husisi
  • 发布时间:2023-11-08
  • 近日,清华大学自动化系成像与智能技术实验室和电子工程系智能感知集成电路与系统实验室联合提出一种纯模拟光电融合计算芯片,国际上首次实测光电计算可以在系统层面,达到高性能GPU算力的三千余倍,能效的四百万余倍,证明了光子计算在诸多AI任务中的优越性。

    现今主流计算性能提升仰赖的准则:摩尔定律,增速已放缓近十年甚至面临失效。电子晶体管大小逼近物理极限。计算平台算力和能效的提升迫在眉睫,全新的计算架构成为破局的关键突破口。其中光电计算以其超高的并行度和速度,被认为是未来颠覆性计算架构的有力竞争方案之一。数年来,海内外知名科研团队相继提出多种光电计算架构,但目前光电计算芯片要直接替代现有电子器件实现系统级应用,仍然面临几个关键瓶颈:

    一是如何在一枚芯片上集成大规模的光计算单元(可控神经元),且约束误差累计的程度;二是如何实现高速高效的片上非线性;三是为了兼容目前以电子信号为主体的信息社会,如何提供光计算与电子信号计算的高效接口。当前常见的单次模数转换所需能量,比光计算每步乘加运算的功耗高出多个数量级,掩盖了光计算的性能优势,让实际场景应用下的光计算芯片难以真正发挥竞争力。

    为了解决这一国际难题,该团队创造性地提出了模拟电融合模拟光的计算框架,将进行视觉特征提取的大规模衍射神经网络,和基于基尔霍夫定律的纯模拟电子计算,集成在同一枚芯片框架内。绕过ADC速度、精度与功耗相互制约的物理瓶颈,在一枚芯片上突破大规模计算单元集成、高效非线性、高速光电接口三个关键瓶颈。

    在三分类ImageNet等任务上实测表现下,所提出的ACCEL芯片系统级算力达到4.6 Peta-OPS, 是现有高性能光计算芯片的400余倍,模拟电计算芯片的4000余倍。同时系统级能效ACCEL达到了74.8 Peta-OPS/W,比现有高性能光计算、模拟电计算、GPU和TPU等架构,提升了两千到数百万倍。

    光电计算芯片ACCEL的计算原理和芯片架构

    更进一步,真正的自动驾驶等超高速视觉计算任务中,超高计算速度必然伴随着每帧图像极短的曝光时间,也就是超低的曝光能量。研发团队对此提出了又一个系统级解决方案:基于光与电模块物理本质上的优势互补,联合设计。光模块高并行地提取特征的同时,非监督地学习到将光强汇聚到某些特征点的编码方式,在总光强极低的情况下,提升局部光强,从而提高对应光电二极管的信噪比。同时利用电模块便于可重构的特性,开发自适应训练算法,让接续的电模块能够对于前面多层光模块的加工误差和对齐误差进行有效纠正。并且在训练时引入对弱光噪声环境的建模。文中结果表明,ACCEL芯片比单一光计算或模拟电计算模块,在各类光强尤其是弱光下的准确率有了显著提升。

    此外,论文中还演示了使用非相干光直接计算交通场景,判断车辆移动方向的实验。非相干光计算由于缺少相位关系,精度更易受噪声影响,因而此前大量使用相干光的高性能光计算未能在自动驾驶、自然场景感知等实际场景中直接应用。而ACCEL芯片创造性地提出了利用噪声鲁棒性实现非相干光计算的思路。可以在手机手电筒等非相干光照明下进行计算,并进行了视频演示。

    光电计算芯片ACCEL在不同任务和曝光强度下的性能

    这项工作不仅提出了一种性能瞩目的颠覆性芯片架构,给出了当前光计算落地过程中尤其掣肘的一系列瓶颈问题的工程级解决方案,并且独辟蹊径地指出光计算的未来发展未必是一味追求“全光”架构,而是真正实现光计算与数字社会的深度融合,相得益彰。让光计算芯片从理论上的高算力高能效,真正有望走向实际复杂视觉场景的系统级应用。

相关报告
  • 《美国研究团队合作开发出新型高精度模拟芯片架构》

    • 来源专题:集成电路
    • 发布时间:2024-03-26
    • 许多复杂的物理系统可以用耦合的非线性方程来描述,这些方程必须在多个时空尺度上同时分析。然而,复杂系统的直接数值计算往往受到“维度诅咒”的阻碍,随着问题规模的增加,计算资源也需要成倍增加。尽管对精确、高性能计算解决方案的需求正在增长,但传统冯·诺依曼计算架构在速度、能耗和基础设施方面正达到极限。作为复杂物理系统建模的一种有效方法,存内计算绕过了冯·诺依曼体系结构固有的内存处理器瓶颈,具有诱人的发展前景。但是,存内计算受到读取噪声和写入可变性等问题阻碍,限制了高性能计算的可扩展性、准确性和精度。 2024年2月22日《科学》期刊报道,美国TetraMem公司、南加州大学和马萨诸塞大学阿默斯特分校研究团队开发出一种新型高精度模拟芯片架构,通过调整忆阻器实现了前所未有的精度,并设计出一种新的电路架构和编程协议,编程协议在最后一步将模拟计算结果转换为数字从而使用多个相对低精度的模拟设备(如忆阻器)有效表示高精度的数字,使得模拟设备的编程更加快速和精确,并使低精度模拟设备能够执行高精度计算。在集成的忆阻器片上系统上,研究团队通过实验证明了多个科学计算任务的高精度解决方案,实现了高达10-15的高精度解决方案,同时保持了与传统数字方法相比的巨大功率效率优势。 该新型高精度模拟芯片架构不仅适用于神经网络等传统低精度领域,还可扩展至其他存储技术领域,如磁性存储器和相变存储器[1]。 这种技术创新结合了数字计算的精度和模拟计算的节能和高速优势,不仅提高了模拟计算的效率和速度,还能为人工智能和机器学习等领域带来更多应用可能性。 [1] Wenhao Song, Mingyi Rao, Yunning Li, et al. Programming memristor arrays with arbitrarily high precision for analog computing [J]. Science, 2024, 383(6685):903-910. https://www.science.org/doi/10.1126/science.adi9405
  • 《美国等联合科研团队开发“脾脏芯片”,深度模拟镰状细胞病》

    • 来源专题:生物安全
    • 编译者:闫亚飞
    • 发布时间:2023-03-04
    • 据中国科技网2月1日消息,美国麻省理工学院、新加坡南洋理工大学、法国巴斯德研究所的研究人员开发出一种微流控设备“脾脏芯片”,可模拟急性脾隔离现象。该设备采用模拟内皮间缝隙的S芯片和模拟巨噬细胞的M芯片两个模块来模拟脾的过滤功能,同时还有一个气体通道来控制各芯片的氧气浓度,以模拟人体内条件。研究发现,在20%的正常氧条件下,镰状细胞在缝隙处出现部分堵塞,在2%的氧水平下,缝隙很快被完全堵塞,再次提高氧气水平后,堵塞消失。该设备可用于查看细胞在控制氧气水平的情况下的流动情况,对镰状细胞病患者的健康红细胞和镰刀状红细胞进行研究。相关研究成果发表于《美国国家科学院院刊》期刊。