深度学习大模型的快速发展对GPU的算力和能效提出了极高的要求,现有的、最先进的GPU已难以满足其需求,因此亟需开发新型硬件加速器。深度学习涉及各种线性和非线性运算,其中矩阵乘法是最重要且最耗时的运算,它在本质上是线性和并行的;而光具有天然的线性和并行特性,因此利用集成光学技术可在半导体芯片上高效执行矩阵乘法,这为深度学习加速器提供了革命性的解决方案。然而,光学矩阵处理器在实际应用中面临一个重大挑战:如何在光学芯片上实现片上训练。传统的深度神经网络训练依赖于反向传播算法,该算法通过网络反向传播误差来调整参数,但在光学芯片上实现反向传播算法十分困难。因此,目前的研究主要集中在仅正向传播训练或依赖特殊片上器件的解决方案上。
为克服这一限制,日本东京大学硅光子学实验室的Mitsuru Takenaka(竹中充)教授、唐睿博士,以及日本玉川大学Ken Tanizawa(谷泽健)教授的研究团队开发了一种新型光学芯片架构。该团队提出的对称硅微环谐振器(Microring Resonator,MRR)光学交叉阵列可在同一光学芯片上无缝实现前向和后向传播。
对称MRR光学交叉阵列的示意结构及工作原理如图1(a)–(b)所示。输入光包含多个波长,其强度由一组马赫-曾德干涉仪(MZI)进行调制。每个MRR与特定波长耦合,并将其引导至指定的输出端口,其中每个MRR的透射率代表一个矩阵元素。输出端口包含来自不同MRR的光信号,其总功率由外部光电探测器检测。通过在前向端口和后向端口之间切换,矩阵可在原始形式和转置形式之间自动切换,而无需重新配置MRR。这一特性实现了无缝的前向和后向传播,满足了光学矩阵处理器片上训练的关键要求。至于为何称其为“对称”,是因为该团队此前已经提出了一种“非对称”结构,但该结构在前向和后向传播方向上的插入损耗存在较大差异,严重限制了其可扩展性。相比之下,新型的对称结构确保了所有光路的插入损耗相等,从根本上消除了前向和后向传播方向之间的差异。
图1 (a) 对称MRR光学交叉阵列:正向信号的传播;(b) 对称MRR光学交叉阵列:反向信号的传播;(c) 基于CMOS工艺制造的4×4对称MRR光学交叉阵列的显微镜照片
为验证此概念,该研究团队中来自日本产业技术综合研究所(AIST)的冈野诚博士和池田和浩博士使用标准的300 mm CMOS工艺制造了4×4规模的光学交叉阵列芯片,该芯片使用硅作为光波导材料,如图1(c)所示。研究团队对该芯片进行了测试,并成功验证了其性能。作为概念验证的实例,该团队构建了一个用于鸢尾花分类的三层神经网络,并利用制造的4×4光学交叉阵列芯片执行矩阵乘法,实现了93.3%的实验分类准确率。此外,他们还模拟了该芯片的片上训练,并分析了更大规模光芯片的性能,向紧凑型、高能效深度学习光学加速器的成功构造迈出了重要一步。