这篇文献清华大学电子工程系为论文的第一单位,陈宏伟为论文的通讯作者,电子系2020级博士生黄铮为论文的第一作者。研究得到国家自然科学基金委及北京市科委的支持。发表在《Science Advances》杂志2024年7月26日的期刊上。文献主要介绍了一种新型的多层光学神经网络(MONN),这是一种紧凑型、被动式的光学计算设备,能够实现接近传感器的预处理计算。这种网络结构包含两个卷积层和一个插入的非线性层,通过设计被动掩模和量子点薄膜来处理非相干光。MONN的光学长度仅为5毫米,比现有的基于镜头的光学神经网络小两个数量级。
MONN在各种视觉任务中的表现超越了线性单层ONN,能够将高达95%的计算密集型操作从电子学转移到光学中,从而提高了计算速度、降低了功耗,并减少了数据存储的需求。这项研究的动机是推动移动视觉领域的新范式,满足实用性、小型化和低功耗的需求。文献详细描述了MONN的设计和架构,包括如何使用光学掩模执行卷积操作,以及量子点薄膜如何作为全光学非线性激活发挥作用。文章还介绍了MONN的光学参数确定方法、材料和制造过程,以及实验设置和评估MONN性能的实验方法 。
该研究通过一系列机器视觉实验验证了MONN的性能,包括手绘图形分类、人体动作识别和细胞计数分类等任务。实验结果表明,MONN在这些任务中的表现优于单层ONN,展示了其在实际应用中的潜力。此外,文献还探讨了MONN的扩展性,包括如何通过增加更多的层来实现更复杂的计算功能,以及在设计和实施MONN时需要考虑的性能、功耗和操作复杂性之间的权衡。
(图为机器视觉链路中近传感器计算范式)