《增强视觉传感器功能:3D图像拼接算法帮助扩大视场》

  • 来源专题:智能制造
  • 编译者: icad
  • 发布时间:2025-01-06
  • 摘要

    得益于出色的深度计算和红外(IR)成像能力,飞行时间(TOF)摄像头在工业应用,尤其是机器人领域越来越受欢迎。尽管具有这些优势,但光学系统的固有复杂性往往会约束视场,从而限制独立功能。本文中讨论的3D图像拼接算法专为支持主机处理器而设计,无需云计算。该算法将来自多个TOF摄像头的红外和深度数据实时无缝结合,生成连续的高质量3D图像,该图像具有超越独立单元的扩大视场。借助拼接的3D数据,应用先进的深度学习网络能够彻底改变可视化及与3D环境的交互,深度学习网络在移动机器人应用中特别有价值。

    简介

    飞行时间(TOF)摄像头作为出色的测距成像系统脱颖而出,它利用TOF技术来确定摄像头与图像中每个点之间的距离。通过测量激光器或LED发射的人造光信号的往返时间,便可计算出距离。TOF摄像头提供精确的深度信息,因此在准确距离测量和3D可视化至关重要的应用中,比如在机器人和工业技术应用中,该摄像头是极具价值的工具,例如能够在270°的视场(FOV)范围执行碰撞检测和人体检测,从而提高安全性。

    ADTF3175 TOF传感器的校准FOV可达到75°。然而,当应用的FOV超出该区域时,挑战出现,此时就需要多个传感器。如果通过集成各个传感器的数据来为整个视场提供全面的分析,这可能会造成困难。一个潜在解决方案是让传感器对部分FOV执行算法,然后将输出传输至主机以进行整理。然而,该方法面临区域重叠、死区和通信延迟等问题,导致其成为很难有效解决的复杂问题。

    另一种方法是将从所有传感器捕获的数据拼接成单个图像,随后在拼接的图像上应用检测算法。该过程可卸载至单独的主机处理器,从而减轻传感器单元的计算负荷,留出空间执行高级分析和其他处理选项。然而,值得注意的是,传统图像拼接算法本身非常复杂,会消耗主机处理器相当一部分的计算能力。此外,由于隐私原因,在许多应用中,数据无法发送到云端进行拼接。

    ADI

    公司的算法解决方案可使用深度数据的点云投影,拼接来自不同传感器的深度和红外图像。这包括使用摄像头外部位置转换捕获到的数据并将其投影回到2D空间,从而生成单张连续显示的图像。

    该方法能够大幅减少计算量,有助于在边缘达到实时运行的速度,并确保主机处理器的计算能力仍可用于其他高级分析。

    图1.深度拼接算法。

    解决方案描述

    ADI的3D TOF解决方案分4个阶段运行(参见图1):

    1.预处理红外和深度数据:红外和深度数据的时间同步及预处理。

    2.将深度数据投影到3D点云:利用摄像头内参将深度数据投影到3D点云。

    3.转换和合并点:使用摄像头的外部位置对点云进行坐标转换,并合并重叠区域。

    4.将点云投影到2D图像:采用圆柱投影将点云投影回到2D图像。

    系统与算法的挑战及解决方案

    主机接收深度和红外帧

    主机通过USB等高速连接方式连接到多个TOF传感器。主机收集深度和红外帧,并将其存储在队列中。

    同步深度和红外数据

    主机接收到的来自每个传感器的深度和红外帧在不同时间实例被捕获。为了避免因物体移动而造成的时间不匹配,所有传感器的输入需要同步到同一时间实例。使用时间同步器模块,该模块根据来自队列的时间戳匹配传入的帧。

    投影到点云

    通过使用每个传感器的同步深度数据,在主机上生成点云。然后,每个点云根据其各自在真实场景中的摄像头位置(参见图2)进行转换(平移和旋转)。接着,这些转换后的点云合并形成单个连续点云,覆盖传感器的组合FOV(参见图3)。

    图2.相机外参。

    图3.合并的点云。

    3D到2D投影

    通过使用圆柱投影算法,也称为前视图投影,FOV的组合点云投影到2D画布上(参见图4)。换言之,该算法将合并点云的每个点投影到2D平面的像素上,从而生成单一连续全景图,覆盖所有传感器的组合视场。这会产生两个2D拼接图像:一个用于拼接的红外图像,另一个用于投影到2D平面的拼接深度图像。

    图4.圆柱投影算法。

    提高投影质量

    将3D组合点云投影到2D图像仍无法生成高质量图像。图像存在失真和噪点。这不仅影响视觉质量,对投影上运行的任何算法也会产生不利影响。以下章节记录了3个关键问题(参见图5)及其解决方法。

    图5.2D投影问题。

    投影无效深度区域

    对于超出传感器工作范围(8000 mm)的点,ADTF3175的深度数据的无效深度值为0 mm。这会导致深度图像上出现大片空白区域,并形成不完整的点云。将深度值8000 mm(摄像头支持的最大深度)分配给深度图像上的所有无效点,并利用该值生成点云。这确保了点云没有间隙。

    填充未映射的像素

    将3D点云投影到2D平面时,2D图像中存在未映射/未填充的区域。许多点云(3D)像素映射至同一个2D像素,因此多个2D像素仍是空白。这就会产生如图6所示的拉伸图案。为解决该问题,我们使用3 × 3过滤器,用其相邻的8个具备有效值的像素的平均红外/深度值来填充未映射的像素。这样便可获得更完整的输出图像,并消除伪影(参见图6)。

    重叠点产生的噪点

    得益于圆柱投影算法,重叠区域上的许多点最终在2D投影输出上获得相同的静止坐标。由于背景像素与前景像素重叠,因此会产生噪点。为解决该问题,我们将每个点的径向距离与现有点进行比较,仅当与摄像头原点的距离小于现有点时,才会替换该点。这有助于仅保留前景点,并提高投影质量(参见图7)。

    图6.填充未映射的像素。

    图7.重叠噪点修复。

    结论

    该算法能够以小于5°的重叠度拼接来自不同摄像头的图像,相比之下,传统关键点匹配算法至少需要20°的重叠度。该方法所需的计算量极少,因此非常适用于边缘系统。由于没有图像失真,深度数据在拼接后仍具有完整性。该解决方案进一步支持了ADTF3175传感器的模块化实现,以极小的损失获得所需FOV。

    FOV的扩展不限于水平维度,相同技术也可用于在垂直方向上扩展视场,从而获得真正的球形视觉。该解决方案可以在连接了4个传感器的Arm®V8 6核边缘CPU上以10 fps的速度运行,提供275°的FOV。当仅使用两个传感器时,帧速率可达30 fps。

    该方法的主要优势之一是实现了巨大的计算效率增益,基本计算效率的增益超过3倍(参见表1)。

    图8和图9展示了使用该解决方案获得的一些结果。

    图8.拼接的红外数据提供210°的FOV。

    参考文献

    “ADI公司的3DToF ADTF31xx”。GitHub, Inc.

    “ADI公司3DToF地面探测器”。GitHub, Inc.

    “ ADI公司3DToF图像拼接”。GitHub, Inc.

    “ ADI公司3DToF安全气泡探测器”。GitHub, Inc.

    “ ADI公司3D ToF软件套件”。GitHub, Inc.

    He、Yingshen、Ge Li、Yiting Shao、Jing Wang、Yueru Chen和Shan Liu.“通过球面投影的点云压缩框架”。2020年IEEE视觉通信和图像处理国际会议,2020年。

    工业视觉技术。ADI公司

    Topiwala、Anirudh。“点云的球面投影”。Towards Data Science,2020年3月。

    图9.具有278° FoV的拼接红外和深度图像。

  • 原文来源:http://www.chinaaet.com/article/3000169605
相关报告
  • 《全息显示改进增强虚拟和增强现实》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2021-02-01
    • 斯坦福大学的研究人员开发出一种提高全息显示器图像质量和对比度的方法。因此这项技术有助于改进虚拟和增强现实应用的近眼显示。这种方法称为Michelson全息照相术,将受Michelson干涉原理启发的光学设置与最新的软件开发相结合以生成数字全息图所需的干扰模式。在全息显示器中,被称为相位空间光调制器 (SLM) 的光学元件抑制了图像质量。SLM 功能用于创建衍射光,这可实现3D图像所必需的干扰模式。这种技术的问题是用于全息的SLMs 往往表现出较低的衍射效率,从而显著降低图像质量,尤其是对比度。 Michelson 全息显示,与其它常规方法(如 Naéve SGD)相比,它在图像质量、对比度和斑点减少方面有了显著改善 NVIDIA 和斯坦福的研究团队成员Jonghyun Kim 说:"尽管我们最近看到了机器学习驱动的计算机生成全息照相学的巨大进步,但是这些算法从根本上受到底层硬件的限制。我们共同设计了新的硬件配置和新的算法以克服其中一些限制,并展示最先进的结果。" 研究人员没有尝试提高SLMs的衍射效率,这是一项极其困难的任务,而是决定设计一个全新的光学架构。虽然大多数设置只使用一个相位 SLM,但研究人员的方法使用两个SLM。 " Michelson全息技术的核心思想是使用另一束未衍射光,相消性干扰一束SLM的衍射光,"Kim说。"增加未衍射光有助于形成图像,而不是创建斑点和其它伪影像。 研究人员将新设置与专为其特定设置而修改的摄像机环流(CITL)优化程序配对。CITL优化是一种计算方法,可用于直接优化全息图或基于神经网络训练计算机模型。该程序使研究人员能够使用相机捕捉一系列显示的图像,这意味着他们可以纠正光学系统的小型错位,而不需要使用精确的测量器件。 Kim 说:"一旦计算机模型经过训练,它就可以精确地计算出捕获的图像会是什么样子,而无需实际捕获它。这意味着可以在云计算中模拟整个光学设置,以实时推断并且并行计算复杂的问题。例如,这对于计算复杂的 3D 场景的计算机生成的全息图非常有用。" 该系统在实验室中进行了台式光学设置测试,用于显示研究人员用传统相机录制的多个2D 和3D全息图像。在测试中该显示器提供的图像质量明显优于现有的计算机生成的全息图像。但是这个设置对于许多应用来说并不太实用;它将需要从台式尺寸缩小到足够小才可用于可穿戴式增强和虚拟现实系统。研究人员指出,共同设计硬件和软件的方法可以有助于更广泛地改进其它计算显示和计算成像。
  • 《三大国际巨头联合开发3D传感技术》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2020-07-28
    • 今年新冠肺炎疫情爆发,触发了对访问安全的新要求和对非接触式访问的新需求。据悉,三家国际领先企业安霸(Ambarella)、朗美通(Lumentum)和安森美半导体(ON Semiconductor)详细展示了一种生物识别精确度更高的 3D 传感技术。 这三家公司相信,他们共同开发的产品将引领具有人脸识别和活体检测功能的智能访问控制和视频安全的新潮流。这些公司的高管们认为,同样重要的是此类产品能保证不同种族人群的准确性和用户隐私不被泄露。 由于普通门把手和指纹扫描仪将被新型生物识别访问系统取代,预计到 2024 年,非接触式访问控制系统市场需求量将超过 1.35 亿个。该市场的增长将取决于基于先进人脸识别技术的产品何时能实现商用。 三家公司的高管在最近一次网络研讨会上详细介绍了如何将先进处理器组合与 3D 人脸识别技术而非更常见的 2D 技术产品相结合。 Wong 解释说,另一个关键问题:2D 人脸识别的安全“因性别和种族偏见而臭名昭著”,“此外,使用人脸图像尚有潜在的隐私问题,因为该图像还可被链接到用户的其它图像或随意发布在网络上。”他说,有数据表明这种方法的准确率约为 80%。 3D 生物识别安全系统通常使用近红外光投射到人脸上,形成密集的投射点图,创建出肉眼看不到的“深度图”。Wong 表示,此深度图用于与对象参考图像做比较,其准确率超过 99%。 3D 人脸识别本身并不是新奇独特的方案。这些公司宣称,单项技术的结合将使 3D 生物识别技术更经济、更准确,因而普及性更强。 可实现非接触式访问系统:Janus 参考平台设计 Janus 参考平台包括安霸的 CVflow 系列人工智能(AI)视觉 SoC 方案 CV25、Lumentum 的垂直腔面发射激光器(VCSEL)结构光技术以及安森美半导体的 RGB-IR CMOS 图像传感器 AR0237,以上器件均已在售。三家公司早在 1 月份就宣布了合作伙伴关系。 安霸在单个芯片上集成深度处理、反欺诈算法、3D 人脸识别和视频编码,在降低系统复杂性的同时提高了性能。Lumentum 产品提供 VCSEL,可将红外(IR)和三原色(RGB)光可靠地投射到脸上。RGB 和 IR 深度感应是由安森美半导体的传感器执行,而无需单独的摄像头系统执行。 “通过在访问控制器件中使用个人身份识别,我们减少了公共接触点,从而改善了卫生和安全性。”安霸市场与业务开发副总裁 Chris Day 说。 他解释了 CV25 是如何在各种照明环境下工作的,而改变照明条件通常会给较早的人脸识别系统带来问题,但是像 Janus 这样的较新系统可以使用更高级的 HDR(高动态范围)算法来解决这些问题。同时,即使受试者戴着口罩,该平台也能够执行这些功能。