在动态场景中,尤其是在线检测、虚拟现实等领域,及时准确地对物体进行三维成像至关重要,而这对传统的条纹投影技术在精度和实时性上提出了挑战。为了减少投影图片数量并提高效率,基于PSP(phase-shifting profilometry)的方法利用冗余的信息,以较少的图案替代原始的多步相移图案,但仍无法避免相位解调中的运动误差。此外,基于FTP(Fourier transform profilometry)的方法利用频域复用等技术可以做到单帧成像,然而频谱混叠问题使其无法满足高精度的需求。近年来,基于深度学习的条纹投影方法在相位计算阶段与神经网络结合,提高了投影效率的同时使精度显著提升,但庞大的网络参数和复杂的结构设计使此类方法难以实现实时处理。因此,如何在不损失成像速度的前提下,降低相位解调的误差,使成像过程更鲁棒、成像精度更高是亟待解决的问题。
近期,四川大学张启灿教授课题组李乐阳等人在Advanced Imaging上发文“Real-time 3D imaging based on ROI fringe projection and a
lightweight phase-estimation network ”,介绍了一种基于相位估计网络和ROI(region
of interest)投影的实时三维成像技术,从条纹投影、相位解调、相位展开等各方面进行改进,显著提高了成像的速度和精度,为动态场景中深度学习辅助的三维成像提供了一种高效轻量的解决方案。
文章介绍了一种基于相位估计网络和ROI投影的实时三维成像技术。如图1所示,在条纹投影阶段,通过确定适当的投影分辨率,有效地增加了目标物体区域内的条纹周期数,从而提高相位精度;在相位解调阶段,研究团队设计了一个相位估计模块,为后续的轻量级网络提供可靠的初始相位;在相位展开阶段,从深度约束的角度对展开方法进行理论分析,使条纹频率的选择更加合理。该技术可以实现百万点分辨率下RMS误差小于0.031mm、速度超过100fps的三维成像,相较于现有的深度学习条纹分析方法,为动态场景测量提供了更加有效的轻量级解决方案。
图1 基于ROI投影和相位估计的实时三维成像流程图
论文的亮点主要集中在以下几个方面:
初始相位辅助的高精度实时相位解调
采用神经网络数据驱动的方式,用可学习空域卷积层替代频域中人为设计的抑制零频、滤出基频等操作,设计相位估计模块提供可靠的初始相位(图2),使轻量级神经网络在取得较快推理速度的同时不牺牲精度。相较于人为确定滤波窗大小、位置的方式,通过数据自适应确定的卷积层具有更高的灵活性。在损失函数设计上,考虑了预测相位与目标相位在空域和频谱上信息的相似性,从逐点误差和结构相似性误差两方面对网络参数进行优化。结合相位估计模块、轻量级网络和改进的损失函数有效地提高了相位预测的精度和速度。
图2 相位估计网络PE-Net的结构、损失函数以及训练过程
改进的双频外差方法与ROI投影策略
针对实际测量中投影仪视场、相机视场和物体尺寸不匹配的场景,文章从深度约束的角度对改进双频外差法进行了理论分析,确定条纹周期与条纹实际分辨率、投影仪分辨、最大测量深度范围以及投影仪相机光轴夹角之间的定量关系,为条纹周期数的选择提供了指导。根据系统参数以及理论分析选择实际投影条纹合适的ROI 和分辨率(图3),从而实现条纹周期宽度的减小和相位精度的提高。
图3 两种条纹投影策略。(a)正常条纹投影;(b)ROI条纹投影
兼具速度、精度与灵活性的实时三维成像
通过对三维成像不同阶段的优化,包括ROI条纹投影策略、PE-Net相位解调和MHPU相位展开,最终实现了对于每帧新拍摄得到的图片都能够实时高精度地重建一个三维结果。实验结果表明,在精度上,该方法在标准球的测试结果中RMS误差小于0.031mm(图4),优于其他三种基于深度学习的典型方法。在速度上,分辨率为1280×800像素下重建帧率可以超过100fps。
图4 标准球的三维重建结果及误差值。(a)Feng方法;(c)UNet方法;(e)NAS方法;(g)所提方法;(b), (d), (f), (h)为(a), (c), (e), (g)对应的深度误差
综上所述,该文章展示了一种深度学习辅助的实时三维成像技术,设计的相位估计模块为神经网络提供了可靠的初始相位,在损失函数上考虑了相位在空域和频域上的相似性,结合轻量级网络有效地提高了相位解调的精度和速度。从深度约束的角度对相位展开方法进行了理论分析,并确定条纹合适的投影分辨率,从而减小了条纹周期宽度,对应增加了测量感兴趣区域的条纹周期数并提高了相位的精度。实验结果证明,通过对成像过程中不同阶段的联合优化,所提方法具备了实时、高精度和高灵活性的特点,为深度学习辅助动态场景三维成像提供了高效的轻量级解决方案。