《清华大学联合团队:超高性能纯模拟光电计算芯片》

  • 来源专题:光电情报网信息监测服务平台
  • 编译者: husisi
  • 发布时间:2023-11-08
  • 近日,清华大学自动化系成像与智能技术实验室和电子工程系智能感知集成电路与系统实验室联合提出一种纯模拟光电融合计算芯片,国际上首次实测光电计算可以在系统层面,达到高性能GPU算力的三千余倍,能效的四百万余倍,证明了光子计算在诸多AI任务中的优越性。

    现今主流计算性能提升仰赖的准则:摩尔定律,增速已放缓近十年甚至面临失效。电子晶体管大小逼近物理极限。计算平台算力和能效的提升迫在眉睫,全新的计算架构成为破局的关键突破口。其中光电计算以其超高的并行度和速度,被认为是未来颠覆性计算架构的有力竞争方案之一。数年来,海内外知名科研团队相继提出多种光电计算架构,但目前光电计算芯片要直接替代现有电子器件实现系统级应用,仍然面临几个关键瓶颈:

    一是如何在一枚芯片上集成大规模的光计算单元(可控神经元),且约束误差累计的程度;二是如何实现高速高效的片上非线性;三是为了兼容目前以电子信号为主体的信息社会,如何提供光计算与电子信号计算的高效接口。当前常见的单次模数转换所需能量,比光计算每步乘加运算的功耗高出多个数量级,掩盖了光计算的性能优势,让实际场景应用下的光计算芯片难以真正发挥竞争力。

    为了解决这一国际难题,该团队创造性地提出了模拟电融合模拟光的计算框架,将进行视觉特征提取的大规模衍射神经网络,和基于基尔霍夫定律的纯模拟电子计算,集成在同一枚芯片框架内。绕过ADC速度、精度与功耗相互制约的物理瓶颈,在一枚芯片上突破大规模计算单元集成、高效非线性、高速光电接口三个关键瓶颈。

    在三分类ImageNet等任务上实测表现下,所提出的ACCEL芯片系统级算力达到4.6 Peta-OPS, 是现有高性能光计算芯片的400余倍,模拟电计算芯片的4000余倍。同时系统级能效ACCEL达到了74.8 Peta-OPS/W,比现有高性能光计算、模拟电计算、GPU和TPU等架构,提升了两千到数百万倍。

    光电计算芯片ACCEL的计算原理和芯片架构

    更进一步,真正的自动驾驶等超高速视觉计算任务中,超高计算速度必然伴随着每帧图像极短的曝光时间,也就是超低的曝光能量。研发团队对此提出了又一个系统级解决方案:基于光与电模块物理本质上的优势互补,联合设计。光模块高并行地提取特征的同时,非监督地学习到将光强汇聚到某些特征点的编码方式,在总光强极低的情况下,提升局部光强,从而提高对应光电二极管的信噪比。同时利用电模块便于可重构的特性,开发自适应训练算法,让接续的电模块能够对于前面多层光模块的加工误差和对齐误差进行有效纠正。并且在训练时引入对弱光噪声环境的建模。文中结果表明,ACCEL芯片比单一光计算或模拟电计算模块,在各类光强尤其是弱光下的准确率有了显著提升。

    此外,论文中还演示了使用非相干光直接计算交通场景,判断车辆移动方向的实验。非相干光计算由于缺少相位关系,精度更易受噪声影响,因而此前大量使用相干光的高性能光计算未能在自动驾驶、自然场景感知等实际场景中直接应用。而ACCEL芯片创造性地提出了利用噪声鲁棒性实现非相干光计算的思路。可以在手机手电筒等非相干光照明下进行计算,并进行了视频演示。

    光电计算芯片ACCEL在不同任务和曝光强度下的性能

    这项工作不仅提出了一种性能瞩目的颠覆性芯片架构,给出了当前光计算落地过程中尤其掣肘的一系列瓶颈问题的工程级解决方案,并且独辟蹊径地指出光计算的未来发展未必是一味追求“全光”架构,而是真正实现光计算与数字社会的深度融合,相得益彰。让光计算芯片从理论上的高算力高能效,真正有望走向实际复杂视觉场景的系统级应用。

相关报告
  • 《清华大学研究团队在晶圆级芯片领域取得重要进展》

    • 来源专题:集成电路与量子信息
    • 发布时间:2025-07-22
    • 晶圆级芯片(Wafer-Scale Chip)是一种颠覆传统计算和半导体制造模式的前沿技术,其优势在于能够以更少的节点数目实现更高的集群扩展线性度和性能,同时具有更高的互连密度、更短的互连距离和更大的集成密度,单机柜算力密度可达现有超节点方案的两倍以上。  清华大学集成电路学院尹首一、胡杨研究团队在晶圆级芯片领域取得重要突破,三项研究成果在2025年国际计算机体系结构研讨会(ISCA)上发表。自2020年起,尹首一教授瞄准超高性能大模型训练与推理场景,探索晶圆级芯片技术,提出了“计算架构”与“集成架构”两大核心设计方法。本次ISCA的三项成果分别研究计算架构问题、集成架构问题与大模型推理任务映射问题,构建了“计算架构-集成架构-编译映射”协同设计优化方法,获得学术界与工业界广泛认可。  该团队联合清华系芯片企业研发了可重构算力网格芯粒,并制造出国内首台基于可重构AI芯粒的12寸晶圆级芯片验证样机,证明了晶圆级集成方式在次世代工艺条件下的可行性,为解决国内芯片“卡脖子”难题提供了技术路线。
  • 《美国研究团队合作开发出新型高精度模拟芯片架构》

    • 来源专题:集成电路
    • 发布时间:2024-03-26
    • 许多复杂的物理系统可以用耦合的非线性方程来描述,这些方程必须在多个时空尺度上同时分析。然而,复杂系统的直接数值计算往往受到“维度诅咒”的阻碍,随着问题规模的增加,计算资源也需要成倍增加。尽管对精确、高性能计算解决方案的需求正在增长,但传统冯·诺依曼计算架构在速度、能耗和基础设施方面正达到极限。作为复杂物理系统建模的一种有效方法,存内计算绕过了冯·诺依曼体系结构固有的内存处理器瓶颈,具有诱人的发展前景。但是,存内计算受到读取噪声和写入可变性等问题阻碍,限制了高性能计算的可扩展性、准确性和精度。 2024年2月22日《科学》期刊报道,美国TetraMem公司、南加州大学和马萨诸塞大学阿默斯特分校研究团队开发出一种新型高精度模拟芯片架构,通过调整忆阻器实现了前所未有的精度,并设计出一种新的电路架构和编程协议,编程协议在最后一步将模拟计算结果转换为数字从而使用多个相对低精度的模拟设备(如忆阻器)有效表示高精度的数字,使得模拟设备的编程更加快速和精确,并使低精度模拟设备能够执行高精度计算。在集成的忆阻器片上系统上,研究团队通过实验证明了多个科学计算任务的高精度解决方案,实现了高达10-15的高精度解决方案,同时保持了与传统数字方法相比的巨大功率效率优势。 该新型高精度模拟芯片架构不仅适用于神经网络等传统低精度领域,还可扩展至其他存储技术领域,如磁性存储器和相变存储器[1]。 这种技术创新结合了数字计算的精度和模拟计算的节能和高速优势,不仅提高了模拟计算的效率和速度,还能为人工智能和机器学习等领域带来更多应用可能性。 [1] Wenhao Song, Mingyi Rao, Yunning Li, et al. Programming memristor arrays with arbitrarily high precision for analog computing [J]. Science, 2024, 383(6685):903-910. https://www.science.org/doi/10.1126/science.adi9405