RoboCasa是一个用于训练通用机器人的非常有潜力的大规模机器人仿真平台,利用了最新的生成式AI工具来极大扩充环境和任务的多样性,并提供了目前最大规模的机器人操作数据集。它为加速通用机器人的研发提供了基础设施。
人工智能(AI)工具的性能,包括用于自然语言处理(NLP)的大型计算模型和计算机视觉算法,在过去几十年中得到了迅速提升。而目前机器人领域的chatgpt时刻还没到来,很大原因就是没有统一的系统物理执行机构和数据集。其中一个原因是从互联网上收集的用于训练这些算法的数据集呈指数级增长。另一方面,机器人控制和规划算法的训练数据仍然远没有那么丰富,部分原因是获取数据并不那么简单。因此,一些计算机科学家一直试图创建更大的数据集和平台,用于为广泛的机器人应用训练计算模型。
最近在预印本平台arXiv发表的一篇论文中,德克萨斯大学奥斯汀分校和NVIDIA Research的研究人员介绍了其中一个名为RoboCasa的平台。RoboCasa是一个大型仿真框架,可用于训练通用机器人在日常环境中完成各种任务。“人工智能的最新进展很大程度上得益于在海量数据源上训练大型模型。”该论文的主要作者Yuke Zhu告诉Tech Xplore。“受这些进步的启发,我们寻求为能够执行各种日常任务的通用机器人开发基础模型。RoboCasa旨在提供训练此类机器人基础模型所需的高质量模拟数据。”
这篇论文的核心贡献包括:
其创新点主要在于利用生成式AI工具扩充仿真环境的多样性,用大语言模型引导生成任务,并提供了目前最大规模的机器人操作数据集。
仿真环境:
RoboCasa基于RoboSuite进行开发,提供了包括120个厨房场景、数千个高质量3D物体模型(涵盖153+类别)的仿真环境。利用Midjourney等工具生成了环境纹理,用Luma.AI等生成3D物体模型,极大丰富了仿真环境的多样性。
数据集与实验:
论文提供了一个超过10万轨迹的机器人操作数据集,主要通过人类示教和自动化轨迹生成方法(如MimicGen)得到。在原子任务上,随着合成数据量的增加(最高3000条/任务),模型性能显著提升,从人类示教的28.8%提升到47.6%。但在复合任务上,即使在原子任务上预训练再迁移学习,性能仍然较低。在真实世界任务中,利用仿真数据与真实数据联合训练,可以将性能从13.6%提高到24.4%,体现了仿真到真实的迁移价值。
Yuke Zhu、Soroush Nasiriany、Abhiram Maddukuri、Lance Zhang、Adeet Parikh、Aaron Lo、Abhishek Joshi和Ajay Mandlekar最近的工作的主要目标是开发一个新的开源模拟平台,以促进机器人算法的培训。他们的努力最终促成了RoboCasa的开发,这是他们几年前推出的模拟框架RoboSuite的扩展。RoboSuite是团队用来创建RoboCasa模拟环境的模拟基础设施。Yuke Zhu解释道:“我们利用生成人工智能工具来创建各种各样的对象资产、场景和任务。这些人工智能工具显著提高了模拟世界的多样性和真实性。此外,RoboCasa支持各种机器人硬件平台,并为模型训练提供了超过10万条轨迹的大型数据集。”
RoboCasa平台包括数千个3D场景,其中包含150多种不同类型的日常用品以及数十种家具和电器。RoboCasa的特点是高度逼真的模拟,这些模拟通过生成人工智能工具得到了丰富。朱和他的同事设计了100个机器人算法可以训练的任务,并为这些任务编写了高质量的人类演示。他们的平台还包括生成有效轨迹和运动的方法,使机器人能够完成这些任务。
RoboCasa使用大型Lanague模型,如GPT-4,来创建各种各样的日常任务。Yuke Zhu说:“最让我兴奋的是两个关键发现。我们展示了一种扩展趋势:一是随着(机器生成的)训练数据集的大小增加,模型的性能稳步增长;二、通过将模拟数据与真实世界的数据相结合,我们发现增强的数据集增强了机器人在真实世界任务中的性能。”
未来还有几个有趣的方向值得探索:
————————————————
原文链接:https://blog.csdn.net/jiayoushijie/article/details/139638261
论文:https://arxiv.org/abs/2406.02523