《清华大学研制大规模干涉-衍射异构集成AI 光芯片 “太极(Taichi)”》

  • 来源专题:集成电路
  • 发布时间:2024-04-16
  • 作为近年来新兴的计算模态,智能光计算具备高速、低功耗等特性,在后摩尔时代拥有超越硅基电子计算的潜力,可以突破性解决人工智能领域的算力与功耗难题。

    光芯片具备高速高并行计算优势,被寄予希望用来支撑大模型等先进人工智能应用。如何制造出兼具大算力和高能效的下一代 AI 芯片已成为国际前沿热点。

    针对大规模光电智能计算难题,清华大学研究团队摒弃传统电子深度计算范式,首创分布式广度光计算架构,研制大规模干涉-衍射异构集成芯片太极(Taichi),实现了具备 879 T MACS/mm^2 的面积效率与 160 TOPS/W 的能量效率的通用智能计算。

    相异于电子神经网络依赖网络深度以实现复杂的计算与功能,“太极” 光芯片架构源自光计算独特的全连接与高并行属性,化深度计算为分布式广度计算,为实现规模易扩展、计算高并行、系统强鲁棒的通用智能光计算探索了新路径。

    清华大学团队在实验环境下,实现了片上(on-chip)1396 万光神经网络(ONN),可用于复杂的自然场景千类对象识别、跨模态内容生成等人工智能复杂任务。太极光芯片的计算能效超现有智能芯片2—3个数量级,将可为百亿像素大场景光速智能分析、百亿参数大模型训练推理、毫瓦级低功耗自主智能无人系统提供算力支撑。

     该研究成果发表于《科学》期刊上,论文下载链接:

    https://www.science.org/doi/pdf/10.1126/science.adl1203


  • 原文来源:https://www.semi.org.cn/site/semi/article/e459402aa8714f25ab4706ea4a1568b3.html
相关报告
  • 《北京大学等研制出基于超大规模集成硅基光子学的图论光量子计算芯片》

    • 来源专题:集成电路
    • 编译者:李衍
    • 发布时间:2023-04-19
    • 北京大学与中国科学院微电子研究所、浙江大学、丹麦科技大学等研究团队合作,克服了大规模光量子芯片设计、加工、调控和测量的诸多难题,制造出一款集成约2500个元器件的基于超大规模集成硅基光子学的图论光量子芯片,实现了面向通用型量子计算的多光子高维量子纠缠制备,以及编程玻色取样专用型量子计算。 该团队设计的图论光量子芯片实现了量子芯片与复数图的完全一一对应,图的边对应关联光子对源,图的顶点对应光子源到探测器的路径,芯片输出的光子符合计数对应于图的完美匹配数。边的振幅、相位均通过片上器件任意设置、顶点间的边连接方式通过线性可重构网络进行编程设置。通过多路径/多过程量子信息抹除的方式,实现了图论光量子芯片的全局量子相干性。通过编程该图论光量子芯片可任意重构八顶点无向复图,并执行与图对应的量子信息处理和量子计算任务。 团队发展出了基于互补金属氧化物半导体工艺(CMOS)的晶圆级大规模集成硅基光量子芯片制备技术和量子调控方法,通过优化设计光量子基本元器件(包括分束器、波导交叉器、干涉仪、光纤和芯片耦合器等)、优化波导器件加工工艺和芯片封装工艺,实现了低损耗的大规模集成硅基光量子芯片,并实现200通道以上相位精确操控及其量子态精确调控。该芯片单片集成了约2500个元器件,包括32个四波混频参量量子光源,以及200通道可编程移相器等器件,为目前国际上最大规模集成的光量子芯片。 该研究成果以题名“Very-large-scale integrated quantum graph photonics”发表在《Nature Photonics 》期刊上,原文链接为:https://www.nature.com/articles/s41566-023-01187-z
  • 《清华大学联合团队:超高性能纯模拟光电计算芯片》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2023-11-08
    • 近日,清华大学自动化系成像与智能技术实验室和电子工程系智能感知集成电路与系统实验室联合提出一种纯模拟光电融合计算芯片,国际上首次实测光电计算可以在系统层面,达到高性能GPU算力的三千余倍,能效的四百万余倍,证明了光子计算在诸多AI任务中的优越性。 现今主流计算性能提升仰赖的准则:摩尔定律,增速已放缓近十年甚至面临失效。电子晶体管大小逼近物理极限。计算平台算力和能效的提升迫在眉睫,全新的计算架构成为破局的关键突破口。其中光电计算以其超高的并行度和速度,被认为是未来颠覆性计算架构的有力竞争方案之一。数年来,海内外知名科研团队相继提出多种光电计算架构,但目前光电计算芯片要直接替代现有电子器件实现系统级应用,仍然面临几个关键瓶颈: 一是如何在一枚芯片上集成大规模的光计算单元(可控神经元),且约束误差累计的程度;二是如何实现高速高效的片上非线性;三是为了兼容目前以电子信号为主体的信息社会,如何提供光计算与电子信号计算的高效接口。当前常见的单次模数转换所需能量,比光计算每步乘加运算的功耗高出多个数量级,掩盖了光计算的性能优势,让实际场景应用下的光计算芯片难以真正发挥竞争力。 为了解决这一国际难题,该团队创造性地提出了模拟电融合模拟光的计算框架,将进行视觉特征提取的大规模衍射神经网络,和基于基尔霍夫定律的纯模拟电子计算,集成在同一枚芯片框架内。绕过ADC速度、精度与功耗相互制约的物理瓶颈,在一枚芯片上突破大规模计算单元集成、高效非线性、高速光电接口三个关键瓶颈。 在三分类ImageNet等任务上实测表现下,所提出的ACCEL芯片系统级算力达到4.6 Peta-OPS, 是现有高性能光计算芯片的400余倍,模拟电计算芯片的4000余倍。同时系统级能效ACCEL达到了74.8 Peta-OPS/W,比现有高性能光计算、模拟电计算、GPU和TPU等架构,提升了两千到数百万倍。 光电计算芯片ACCEL的计算原理和芯片架构 更进一步,真正的自动驾驶等超高速视觉计算任务中,超高计算速度必然伴随着每帧图像极短的曝光时间,也就是超低的曝光能量。研发团队对此提出了又一个系统级解决方案:基于光与电模块物理本质上的优势互补,联合设计。光模块高并行地提取特征的同时,非监督地学习到将光强汇聚到某些特征点的编码方式,在总光强极低的情况下,提升局部光强,从而提高对应光电二极管的信噪比。同时利用电模块便于可重构的特性,开发自适应训练算法,让接续的电模块能够对于前面多层光模块的加工误差和对齐误差进行有效纠正。并且在训练时引入对弱光噪声环境的建模。文中结果表明,ACCEL芯片比单一光计算或模拟电计算模块,在各类光强尤其是弱光下的准确率有了显著提升。 此外,论文中还演示了使用非相干光直接计算交通场景,判断车辆移动方向的实验。非相干光计算由于缺少相位关系,精度更易受噪声影响,因而此前大量使用相干光的高性能光计算未能在自动驾驶、自然场景感知等实际场景中直接应用。而ACCEL芯片创造性地提出了利用噪声鲁棒性实现非相干光计算的思路。可以在手机手电筒等非相干光照明下进行计算,并进行了视频演示。 光电计算芯片ACCEL在不同任务和曝光强度下的性能 这项工作不仅提出了一种性能瞩目的颠覆性芯片架构,给出了当前光计算落地过程中尤其掣肘的一系列瓶颈问题的工程级解决方案,并且独辟蹊径地指出光计算的未来发展未必是一味追求“全光”架构,而是真正实现光计算与数字社会的深度融合,相得益彰。让光计算芯片从理论上的高算力高能效,真正有望走向实际复杂视觉场景的系统级应用。