本周在西雅图举行的计算机视觉和模式识别(CVPR)会议上,英伟达的研究人员展示了新的视觉生成人工智能模型和技术。这些进步涵盖了自定义图像生成、3D场景编辑、视觉语言理解和自动驾驶汽车感知等领域。
“人工智能,尤其是生成式人工智能,代表了一项关键的技术进步,”英伟达学习和感知研究副总裁简·考茨(Jan Kautz)说。
“在CVPR上,NVIDIA研究院将与大家分享我们如何突破各种可能性的界限——从强大的图像生成模型,为专业创作者提供强大的动力,到帮助实现下一代自动驾驶汽车的自动驾驶软件。”
在展出的50多个NVIDIA研究项目中,有两篇论文被选为CVPR最佳论文奖的决赛入选者——一篇探讨扩散模型的训练动态,另一篇探讨自动驾驶汽车的高清地图。
此外,英伟达还赢得了CVPR自动驾驶挑战赛的端到端大规模驾驶赛道,超越了全球450多家参赛公司。这一里程碑展示了英伟达在将生成式人工智能应用于全面自动驾驶汽车模型方面的开创性工作,并获得了CVPR的创新奖。
其中一个重要的研究项目是JeDi,这是一项新技术,它允许创作者快速定制扩散模型——文本到图像生成的领先方法——使用少量参考图像来描绘特定对象或角色,而不是在定制数据集上进行耗时的微调过程。
另一个突破是FoundationPose,这是一种新的基础模型,可以立即理解和跟踪视频中物体的3D姿态,而无需对每个物体进行训练。它创造了新的性能记录,并可能开启新的增强现实和机器人应用。
NVIDIA研究人员还介绍了NeRFDeformer,这是一种使用单个2D快照编辑神经辐射场(NeRF)捕获的3D场景的方法,而不必手动重新激活更改或完全重新创建NeRF。这可以简化图形、机器人和数字孪生应用程序的3D场景编辑。
在视觉语言方面,英伟达与麻省理工学院合作开发了VILA,这是一个新的视觉语言模型家族,在理解图像、视频和文本方面实现了最先进的性能。凭借增强的推理能力,VILA甚至可以通过结合视觉和语言理解来理解网络模因。
英伟达的视觉人工智能研究横跨多个行业,其中包括十几篇探索自动驾驶汽车感知、地图绘制和规划新方法的论文。NVIDIA人工智能研究团队副总裁Sanja Fidler将介绍自动驾驶汽车视觉语言模型的潜力。
英伟达CVPR研究的广度体现了生成式人工智能如何赋予创造者权力,加速制造业和医疗保健领域的自动化,同时推动自主和机器人技术向前发展。