《英伟达发布 GR00T N1.5 人形机器人 AI 基础模型,黄仁勋称将推动“下一代工业革命”》

  • 来源专题:智能制造
  • 编译者: icad
  • 发布时间:2025-06-06
  • 在 2025 台北国际电脑展上,英伟达首席执行官黄仁勋宣布大幅扩展机器人开发基础设施,推出人形机器人基础模型 Isaac GR00T N1.5 新版,并称其为“下一代工业革命的核心构建模块”。
    该模型的亮点在于大幅提升了训练效率,传统人工数据采集通常需要近三个月,而新模型通过 GR00T-Dreams 工具生成合成数据,新版本开发可以缩短到 36 个小时,显著缓解了制约人形机器人发展的数据瓶颈。
    据介绍,GR00T-Dreams 工作原理颇具巧思:先针对特定机器人微调 Cosmos Predict 世界模型,仅需单张图像即可生成多环境任务演示视频,并提取“动作 tokens”用于训练。
    这种 "用 AI 生成 AI 训练数据" 的模式,让机器人学习新行为时,不再依赖耗时费力的实体测试。实测显示,N1.5 模型在新环境适应、工作空间配置及指令识别方面均有显著提升。
    波士顿动力、Agility Robotics、富士康等头部企业目前已接入 NVIDIA Isaac 平台。为配套开发需求,英伟达同步推出 Cosmos Reason 世界模型、Isaac Sim 5.0 开源仿真工具,并联合思科、戴尔等厂商推出 RTX PRO 6000 工作站。
  • 原文来源:http://www.gkong.com/item/news/2025/05/121606.Html
相关报告
  • 《ChatGPT:一场新的工业革命,会有多少人会因此失业?》

    • 来源专题:数控机床与工业机器人
    • 编译者:icad
    • 发布时间:2023-02-16
    • “我一生中从未见过,至少在我从事科技行业的30年中,美国西海岸的先进科技可以在几个月内以非常真实的方式出现在印度农村。我不认为在过往的工业革命中有过这种现象,对于知识型工作者来说,也许这一次完全等于工业革命。” 在瑞士达沃斯举行的世界经济论坛的一场对话中,现任微软公司CEO、董事长萨蒂亚·纳德拉曾这样表示。 让我们借用上帝的权柄来操纵时空,把一个生活在10世纪的罗马农民带到15世纪中国,虽然当地礼仪和语言有所不同,四周的农田和建筑仍能让他感到如归故土般熟悉。但如果把某位15世纪的哥伦布水手转移到21世纪的城市附近,他会发现自己完全无法理解周围几乎所有事物。因为在过去短短250年间,人类的科技和经济发生了三次爆炸性增长,几乎所有人(而不是一小撮精英人群)的物质生活都发生了翻天覆地的变化,我们把这种涉及几乎所有人的生产力变革称为“工业革命”。 ChatGPT出现的短短两个月内,我身边自然语言处理领域从业的朋友们就经历了两场深深的焦虑,一场是ChatGPT刚诞生时,对自己研究方向的反思,另一场则来自于现在的资本狂潮。固然,现在以ChatGPT为代表的AIGC(生成式人工智能)存在真实性、可控性、时效性和理解力问题(事实上微软新版Bing里已经解决了很多),但让人恐惧的是,这些问题仿佛并非无法可解,而是更让人心生害怕的是,未来近在眼前,如果不拥抱变化,也许便如那位来自15世纪的哥伦布水手,一夜之间,自己便几乎成为了变化本身。 我们不得不承认,正如纳德拉所言,一场新的、关于“智能”的工业革命的萌芽正破土而出。 对比从前,ChatGPT的优势并非“把信息分发给每一个需要的人”,而是“预测性地表示和调用信息”,也是因此,它不是传统互联网应用,比如搜索引擎、聊天工具或者新闻推荐的简单复刻。 如果把各类人工智能算法比作蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,作为人类历史上用户数最快过亿的消费级自然语言处理应用,ChatGPT就像初生的汽车、电话或者互联网网站,正以前所未有的速度让原本分散在各领域的自然语言处理算法“飞入寻常百姓家”,影响到几乎所有人的生活。 在最近这两个月里,随便一搜就可以看到,太多的科技领袖,从马斯克、纳德拉,到李开复、周鸿祎等,都在发声称ChatGPT即将改变世界;太多的互联网公司,比如谷歌,微软,阿里,百度正在抢占潮流;又有太多的学术机构、高校也开始讨论ChatGPT生成论文是否符合学术规范;而突然之间又有太多各行各业从业者燃起了被ChatGPT替代的担忧与焦虑…… 很多人开始问,这种生成式人工智能会像远古人类一样产生智慧吗?在这场由机器思维开启的工业革命里,ChatGPT是怎么发展到现在的?它的局限是什么?它对我们每个人的命运意味着什么?在这篇文章里,我尝试对上述几个问题作出回答。 或许此后,每位读者都会对“怎样对待ChatGPT”这个问题有自己的想法。 ChatGPT更像人, 它就一定更智能吗? “思维”帮助人类统治地球至今。不论你喜不喜欢,它都正粗暴地推着每个人的后背进入下一个房间,虽然我们并不知道房间里是天使还是魔鬼。” 回溯历史,自人类开始直立行走至今已有250万年光阴。在这漫长的进化过程中,我们的先祖使用火焰、工具和石头建造道路、城市和高塔,驾驭蒸汽、闪电和钢铁征服大地、海洋和天空。我们超越了儒勒·凡尔纳的想象,只需要48小时就能环游世界;我们完成了40亿年里地球生物从未完成的壮举,踏上了月球。越来越多的人类相信,思维是人和动物的本质区别,而7倍于同体重哺乳动物的大脑容量是人类先祖产生智力、开启长达7万年地球统治的关键。 人类一直在试图仿制自己,从神话到现实。 古希腊神话里,宙斯曾授命工匠之神赫菲斯托斯锻造一个力大无比、按照特定程式来运作的青铜巨人“塔罗斯”,用来保护克里特岛免受外来入侵。当时的塞浦路斯艺术家皮格马利翁精雕细琢后爱上了自己的雕像造物“伽拉忒亚”,幸运的是爱神最终成全了他们的爱情并使其成为活人。《列子·汤问》中也曾记载,匠人偃师用皮革、木头等材料制造了一个舞姿优雅、动作千变万化的艺人献给周穆王,周穆王信以为真,却因为吃醋差点杀了他。然而,在那时,这些想法只能停留在少数人的想象中。 这一切,直到两大信息巨头相遇。或许是冥冥之中的神灵指引,1942年末,阿兰·图灵被英国政府派遣到贝尔实验室参与安全通信研究,在这里,他遇到了正在数学组任职的克劳德·香农。当时,《论可计算数及其在判定性问题上的应用》已经发表,图灵也已经完成了“图灵机”这样的概念模型设计,试图以此模拟人类的计算能力。 在一次自助餐厅的相遇过程中,香农对这样的概念模型也表示了极大的兴趣,两人在不断讨论中认为,既然计算可以被机器模拟,那这样的概念模型是否能扩展到描述人类所有的“智能”行为?那么对人来说,什么是“智能”? 两位信息科学巨匠陷入了漫长的争论,直到图灵离开美国也没有得到确切结果,但正是这些富有价值的讨论,让人工智能这个概念开始生根发芽,从“神话”走向“科学”。在此后数年时间里,图灵开始逐渐意识到定义“智能”或许并非是合适的开端,因为这是个哲学问题,它并不能在现实中通过实验验证。那么,假如“智能机器”可以表现得和人类一样好,那么我们是不是也可以通过它的“模仿水平”判断“机器智能”程度? 答案是肯定的,这就是如今举世闻名的“图灵测试”。 所谓图灵测试,即:让计算机在不和人接触的情况下进行对话,如果人无法分辨对方是人还是机器,那即可认定机器存在智能。图灵在提出图灵测试时,不会意识到一个简单的思维实验会对后世产生如此重要的影响,以至于在此后几十年里,几乎每段时间都会有各种各样的人或公司声称自己的机器人通过了 “图灵测试”,即使这些“图灵测试”仅仅是“缩略版本”。例如在英国皇家学会的测试规矩里,如果某台机器在一系列时长为5分钟的键盘对话中,被误认为是人类的比例超过30%,那么这台机器就被认为通过了图灵测试。于是出现了很多“能够在5分钟长度对话里骗过人类”的对话机器人。历史上也有一些反对者曾经试图证明图灵测试只是“模仿”,而非智能的充分条件,比如“中文屋”问题:如果我们假设屋子里有一个不懂中文的人,和一本他的母语写的中文规则书,那么他就可以回答来自屋外的任何中文问题,但这个人本身并不具有对中文的理解能力。如果把这个屋里的人换成机器,那么反对者认为,即使机器可以通过中文描述的图灵测试,我们也不能称它具有“智能”。 “中文屋”能否成立其实很值得思考。因为如果图灵测试持续时间足够长、对话话题足够广,规则书就会因为需要包含过于多样的语法规则而无法真实存在。但是无论如何,“中文屋”、以及此后的“布洛克脑”等问题都让我们开始反思图灵测试本身。 机器智能真的会表现的和“人类智能”一样吗?完备的图灵测试可以判断机器能不能思考,但是不够完备的图灵测试又没有太多意义。它符合我们现在对机器智能的要求吗? 这两个问题的答案也许都是“并不能”。机器在计算能力上始终会高于人类,而我们也永远不会去追求机器智能和人类智能完全相等,比如让机器帮助人类判断“今天的菜是不是好吃”。强行追求机器和人类无差别或许在人工智能这条路上并非好标的。 然而,即便如此,ChatGPT通过图灵测试了吗? 并没有,这是ChatGPT自己说的。我测试了一下,对这个结果表示同意,因为它在某些关键问题上依然有点“智障”。 ChatGPT无法通过图灵测试的原因有很多,比如它其实并没有完全获得“世界常识”,而是更专注于“语言知识”;比如它只是寻找概率最大的回答和句子格式,这是联想而非真正的逻辑推理。但就一个专注于语言的大模型来说来说,它的“说话水平”毫无疑问已经超过其他领域的主流人工智能模型。 有意思的是,最近有项研究重新审视了经典图灵测试,并使用图灵测试的论文内容作为基础,使用ChatGPT生成了一份更可信的论文版本,来评估它的语言理解和生成能力。写作辅助工具 Grammarly 认为ChatGPT 生成的论文得分比图灵原始论文高出14%。这或许有一定象征意义。 考虑到图灵测试所追求的并非对ChatGPT们长处的最佳利用。那么我们更应该思索的是,我们在未来会有一个比图灵测试更好的评价标准吗?现代是否需要一种测试去衡量各类生成式人工智能的进步,而不是仅仅以它们模仿或愚弄人类的能力为标准? 这或许是更加迫在眉睫的问题。 大语言模型的开始:马尔科夫、香农和语言模型 问题继续回到“智能”,人类心智中最根深蒂固难以去除的乃是文字。文字来到世间,为的就是把知识和思维保留下,让其能跨越时空。历史正是有了文字才成为历史,过去之所以称为过去,全靠文字来纪录轨迹。 哪怕对于人类来说,掌握文字也需要一些特殊技巧。因为文字这类符号系统是人类获取和沉淀知识的途径,也是人类组织思维的手段。作为目前使用最广泛的语言,有记录的英语词汇早已超过百万,还正在不断增加,而通过英语记录下来的文本数据更是数不胜数。 既然文字记录着人类的知识,那机器能从过去的文本中获得智能吗?这就来到了现代自然语言处理的范畴。 1913年,俄国数学家马尔科夫坐在他圣彼得堡的书房里,拿起笔和草稿纸删去了《尤金·奥涅金》的所有标点和空格—这是普希金在100年前创作的诗歌小说。紧接着,他统计了剩下的前两万个字母中元音、辅音的个数。 马尔科夫发现,虽然这长串字母中有43%的元音,57%的辅音,但是元音与辅音之间的连接却截然不同,元音-元音、辅音-辅音、元音-辅音/辅音-元音连接分别出现了1104、3827和15069次。这意味着若随机抽取书中任何一个字母,如果结果是元音,那么下一个字母大概率是辅音,反之亦然。《尤金·奥涅金》的字母之间显然存在着某种可以被数学建模的统计特性。 上述过程中比较数学的说法就是,如果把字母当做随机变量,它上一个状态(上一个字母)与下一个状态(下一个字母)存在相关性。如果我们使用“转换概率”,即下一个字母出现元音/辅音的概率,来刻画这些相关性,这就形成了最简单的马尔科夫链特性,这也是最简单的“语言模型”。 我们之所以说最简单,是因为马尔科夫假设每一个字母出现的概率仅与前一个字母相关,这当然在现实世界里很少发生。因为通常真正理解一句话需要结合这句话的语境,也就是上下文里包含的信息。比如现在的网络流行语“YYDS”,可以翻译成“永远的神”,当然也可以认为是“远洋大厦”的缩写,这完全取决于语境本身。 那么,在数学上我们需要严格定义“上文”和“下文”都指什么。比如如果我们假设“上文”的范围是N,即一个词或者字母出现需要依赖往前数N个词的话,1948年香农提出的经典语言模型N-gram就进入了我们的视野。 如同上图中的例子,我们也可以简单把这个语言模型做的事用一句比较“人话”的方式总结: 考虑前N个词,如果一个词/句子出现的概率越大,它真正出现后人们会觉得越自然,也就越符合语言规律,整句话也就越“像一句人话”。 如果用流浪地球2的经典台词为例来解释这句表述,就是这样: 1. 我相信人类的勇气可以跨越时间,跨越每一个历史、当下和未来!2. 我相信勇气的人类可以跨越当下、时间和未来,跨越每一个历史!3. 勇气人类的相信跨越跨越时间、历史、每一个当下和未来! 相信很多人会觉得第一句台词通顺且优雅,第二句虽然语句不通,但是大概会明白什么意思,但是第三句就基本没什么道理了,基本不会存在于地球上的人类语言里。那么,从统计角度,在“人类语言模型”里,第一句话发生的概率最大,第二句话次之,第三句话几乎不可能发生。 这样,一段文本的合理性就得到了量化。 马尔科夫和香农的语言模型奠定了自然语言处理任务的基石。从那时起,单词、句子和段落之间的关系,也就是文本的合理性不再是虚无缥缈的概念,它变得可以被机器量化,也正是如此,“自然语言处理”正式成为“信息科学”的分支之一。机器翻译、自动问答、情感分析、文本摘要、文本分类、关系抽取等等自然语言处理的下游任务得以成立,并蓬勃发展。 很显然,越好的语言模型越是可以更好地理解一段文本的优劣,马尔科夫建立的语言模型来自一本书,那我们能找到更好的语言模型吗? 连接主义、神经网络语言模型——能从文本里读到真正的智能吗? 自从图灵测试被提出以来,关于如何模拟智能的探索就一直存在着多种不同的流派。 其中一派人被称为“符号主义”或“逻辑主义”,认为智能的基础是知识,知识可以用符号表示,探索让机器直接模拟智能的方法。 最开始这批科研人员并没有考虑“知识的来源”,只是尝试从现有的语言学知识分析文本结构,总结语言规律,进而完成较为复杂的文本推断等问题。然而,后来大家发现,智能的体现不能仅仅依靠推理本身,对一个智能系统来说,先验知识(对应人的记忆和经验)是更加重要的一环,但是仅依赖专家灌输先验知识分(专家系统)无论如何都比不上知识本身的膨胀速度,于是,知识工程,以及如何建立通用知识图谱就成了自然语言处理领域非常重要的研究方向之一。 事实上,在2013年以前,符号主义学派都是自然语言处理领域的主流。但是考虑到这里我们的主要话题是ChatGPT,这里不多做讨论,历史留给大家自行探索。 另一派人被称为“连接主义”,主张从人类大脑的神经结构出发,先让机器模拟人脑构造,再以此模拟智能。大家对这部分工作最熟知的应该是“神经网络”,这也是ChatGPT的开端。但在早期,神经网络在语言模型上远没有如今那么出色,它对很多文本任务的提升并不大,传统语言模型(比如N-gram模型)难以解决的问题,它依然无法可解。 直到神经网络开始加深。 2012年,杰弗里·辛顿和他的学生在ILSVRC2012上用AlexNet(深度神经网络的一种)以超过第二名准确率10%的压倒性优势夺冠,开启了深度学习对其他人工智能领域的革新。大家对被埋在故纸堆里的神经网络然语言处理模型开展了一波“再发掘”,挖出了迄今为止依然非常经典的“词嵌入”(Word Embeding)方法。 不过在这里,为了更深入解释“词嵌入”,我们需要继续请出马尔科夫和他的《尤金·奥涅金》。在本文的上一部分中,我们敬爱的马尔科夫先生对字母的发音方式做了统计建模,但考虑到发音方式和语言本身的关系并不明显。在这里我们稍微调整一下马尔科夫先生的目标,对《尤金·奥涅金》里的“单词”建立建模。 然而,鉴于《尤金·奥涅金》里的“单词”数目会远远多于字母的元音/辅音数目,如果使用前述的单词间关系作为表示的话,不同“单词-单词”的组合关系会多得不可思议,也变得难以计算。 此时,“词嵌入”的优势就体现了出来。同样是《尤金·奥涅金》,“词嵌入”向量和对应“词嵌入”向量的神经网络语言模型会比仅用“单词”进行统计建模更高效。仿佛黎明中看到了曙光,神经网络语言模型成了此后的改进重点。因为,如果我们把《尤金·奥涅金》这本书换成更通用、更泛化的训练数据集(或者叫做语料库),或者直接用人类所有文本数据来训练一个模型,这个模型也许就可以“精通人类语言”和“人类知识”。 于是,在此后的数年间,大量神经网络语言模型不断出现,比如循环神经网络模型 (RNN) ,比如长短期记忆模型 (LSTM)。但是总体上,都没有脱离神经网络语言模型+各类改进的“词嵌入”向量来完成统计建模的范畴。在此过程中,“词嵌入”方法所无法解决的“多义词”难题也逐渐被改进。 同时,自然语言处理相关研究也深受深度神经网络影响,试图不断增加神经网络语言模型的层数或者模型参数,但是这种努力比起其他方面的进展,其实并不能算得上非常成功。 当然,现在回想,原因可能是当时大多采用半监督训练方法,可供训练的标注数据不足,网络本身也没有采用生成式方法,这样即使神经网络语言模型的层数增加或者模型参数增加,其训练数据也不能支持语言模型充分训练;另一个可能是以RNN和LSTM为代表的模型特征抽取和语言表示能力不足,对训练数据的利用不够高效。 这一切,直到Transformer,和基于Transformer的大语言模型出现,人们才找到通往“通用语言模型的曙光”。 大语言模型,大即是正义 自从深度学习问世以来,因为其层数越来越高,标注一个高质量数据集所需要成本也越来越大,那么如何在标注数据有限的情况下高质量完成训练,就成了一个非常重要的问题。 一个非常主流的思想就是“迁移学习”。在图像处理领域,“迁移学习”是指利用大数据集完成预模型训练后,再针对特定任务微调参数(Fine-Tuning)以适应不同图像任务。而在语言模型极为重要的自然处理领域,如果拥有一个足够强大的“语言模型”,去储存基本的单词、语义知识,再根据特定任务调整,是不是可以让性能更加提升? 答案是:可以 2018年6月,OpenAI公司提出初代GPT模型。同年10月,谷歌公司公布了自己的BERT模型,大幅度刷新了自然语言处理领域几乎所有最优记录,从此开启了预训练大模型时代。 在此后的4年时间里,预训练语言模型如 BERT 和 GPT(GPT-1和GPT-2,这些ChatGPT的前身),已成为当前自然语言处理领域的主流技术趋势。这些模型参数从3亿到1.75万亿不等,也因此被称作大语言模型(Large Language Model)。 我必须在这一节强调,这些预训练大模型的本质是在使用更大的模型、更多的数据去找到对人类更好的、更通用的“语言模型”,就像我们的祖先在7万年前自豪的那样,大模型可以获得更多知识。也正是因此,包括BERT和GPT在内的大语言模型,在预训练过程中其实就已经获得了相当数量的词汇、句法和语义知识,仅仅只需要少量标记数据对模型细化,就可以完成各种各样的自然语言处理任务。 如果一定要问技术区别的话,BERT的训练过程更像让机器不断完成“完形填空”,而GPT的训练过程更像“单词接龙”,前者会更擅长语言理解问题,后者更擅长文本生成问题,这里存在一些技术区分。但是至少,他俩对普通人和各种文本处理任务,都已经“足够好”了。 大之后又如何,怎么让人用起来? 有了一个好的语言模型,剩下的就是让它“通用”。 我们现在生活在一个充满“人工智能算法”的社会,小度音箱、新闻推荐、有道翻译、Grammerly语法检查、美图增强,甚至图像风格转换随处可见。但是这些人工智能算法都只是“内嵌”在各种已有产品、或者功能里,从来没有外显到直接影响用户本身。 这就让越来越多人对“人工智能”这个词逐渐有了一个“思想钢印”,觉得它最合适的场景还是去处理某个垂直任务。如果打开某云平台网站,我们往往会看到在人工智能标签下琳琅满目的项目,人脸识别会被分为“人脸检测与五官定位、人脸属性识别、人体检测….”等等6种。 学术界也是如此,虽然自然语言处理的关键在于理解单词、句子的结构这些“语言知识”本身,但它依然会被分为“机器翻译,语言生成,文本归纳” 等等任务,而其评价标准和对应的产品形态各不相同。 预训练大模型的出现开始让这些下游领域产生被“一统江湖”的苗头,这些任务从原本的“设计模型,从零开始训练”,调整为“加载预训练模型,微调任务参数”。如果按照一贯思维,面向公司的“通用语言模型”到这种程度也就够了,模型开发商可以向下游产品厂商收取模型服务费用,而模型开发商可以专注于提升模型对的精度,简化开发难度。这就是Google对于BERT和后续模型的想法。 OpenAI与其他公司之间对 “大语言模型”的设计的根本分歧便在这里。他们希望让这套模型更普适,把“通用语言模型”做成一个直接面向用户的产品。而要达成这个目标,就必须考虑继续优化“微调”这一步,直到模型本身不需要任何调整干预即可直接执行所有自然语言处理任务。 移除“微调”,理解人类“命令/指示”,这就是从GPT2.0到GPT3.0,再到ChatGPT,OpenAI所遵循的设计思路。 因为对于人类用户,最好的方式就是语言模型可以直接理解我们对它的“指令”或者“示例”,根据指令去调用相应的自然语言处理下游任务。于是GPT选择了从“微调”到“提示学习(Prompt Learning)”,再到“指示学习(Instruct Learning)”的技术路径,一步一步降低了用户使用门槛,把“通用语言模型”调整到适配正常人类的习惯,这样才在现在获得巨大成功。 ChatGPT在大语言模型的基础上,一步一步通过带有人类反馈的增强学习(MOSS:人在回路)注入人类关于“命令”、“指示”、“友善”等先验知识,让“通用语言模型”的回答更“平易近人”、“更有用”、“更无害”,同时可以理解用户指令,应该是ChatGPT最大的贡献之一。 这也完美符合了我们对未来“通用人工智能”的期待。 ChatGPT和我们的未来 ChatGPT毫无疑问是人工智能领域的重大突破,正如很多人所说,它的突破或许并不显著的体现在技术进步,而是在于它成功让人工智能产品以一种用户可以接受的形态进入大家的生活。对大部分人来说,它比我们之前的任何产品都更接近“通用人工智能”。 同时,不可否认的是,ChatGPT依然存在很多问题。ChatGPT依然是一个基于统计规律的大语言模型,它有人类无懈可击的语言天赋,但是只能做联想而不能完成“逻辑推理”。从这个角度来讲,ChatGPT会倾向于制造出令人信服的回应,当然其中可能包含“生成的”几个事实错误、虚假陈述和错误数据,因为作为一个自然语言处理模型,它也不知道高达数十PB的无监督训练数据里什么是“事实”,这更像一个有点滑头的“虚拟助手”。另外,因为在训练过程中,为了识别人类指令而注入过大量“指令”知识,ChatGPT会对“指令”本身非常敏感,但同时会对一些上下文无关,需要“事实依据”做判断的歧义词识别不高。 但是这些问题似乎不难解决。目前的ChatGPT依然只是离线版本。在我们看到的bing(在线版本)的一些应用示例里,部分问题似乎已经被缓解。事实上,如果ChatGPT能够对信息源进行可信度分级,并且在生成的回答中列出参考信息源,回答的可信度问题应该会得到一定程度的规避。如果能在未来接入一些专家构建的专业知识库(比如金融知识图谱),它可以被转变为特定领域的专家。 对大多数普通人来说,ChatGPT都是一个合格的助手,因为所有关于人类语言的技能它都很精通(或者在可见的未来里会很精通),比如归纳总结、翻译、书写文章、风格修正、翻译、润色、写代码等等,因而,从事这些工作的劳动者,如果不能掌握将ChatGPT作为助手的技能,也许将会成为最早期被机器取代的人。 然而,即便如此,我始终认为, AI替代的不是简单的某个行业,而是不会使用AI的从业者。 AI带给人类的意义也不是替代我们的工作,而是让我们从一些重复性工作解放出来,让人类去真正思考“什么铸就了人类的唯一”。 这或许才是千万年以后,人类回望时间长河,在被历史冲刷下还能保留,甚至愈发辉煌的人类丰碑。(本文作者崔原豪为北京邮电大学信息与通信工程博士、中国计算机学会科学普及工作委员会主任助理,曾担任电影《流浪地球2》科学顾问。除特别注明外,文中图片由作者提供。) 来源:知识分子   注:除标明原创外,均为网友或机构投稿分享,如有宣发需求请联系dongxizhiku@163.com。           .
  • 《人形机器人,谁主沉浮?》

    • 来源专题:智能制造
    • 编译者:icad
    • 发布时间:2024-03-07
    •     当前,机器人产业蓬勃发展,正极大改变着人类生产和生活方式,湖州,正着眼战略需求和前沿先机,打造新兴产业链,浙大湖州研究院,在机器人领域有很强的科研实力,2023年12月主办了中国机器人行业年会。未来,我们如何把握时代浪潮,助推湖州市机器人产业发展,是个值得思考的问题,为此,编写组拟推出若干期机器人行业观察文章,以抛砖引玉、共话发展。     一、人形 机器人 赛道火热     人形机器人近来可谓炙手可热。知名机器人网站The Robot Report公布的2023年机器人年度10大热点话题中有6篇是关于人形机器人的。     人形机器人又称仿人机器人,是具有人的形态,能够完成人类肢体能完成的运动、作业,并具有类人的感知、学习和认知能力的机器人,其发展可以分为四个阶段。     一是初步行走阶段:1973年,日本早稻田大学加藤一郎团队开发了仿人机器人WABOT-1,其能实现双足行走,但动作缓慢;     二是能力突破阶段:2000年,本田公司推出Asimo,其可以用双脚实现较流畅的行走;     三是技术突破阶段:2013年,美国波士顿动力推出Atlas,其可以进行后空翻、倒立等高难度动作,但成本过高;     四是商业化阶段:2022年,特斯拉发布Optimus,其可以实现直立行走、搬运、洒水等复杂动作,并宣称单个成本将降至2万美元左右,将于近年实现量产上市,最终数量将达到百万级,自此全球人形机器人赛道被引燃,各大公司纷纷入场。     有研究报告指出,当前全球 人形机器人产业正值爆发前夜,2024年将可能是人形机器人商业化元年。 2023年10月,我国工信部发布了《人形机器人创新发展指导意见》,指出“ 人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将深刻变革人类生产生活方式,重塑全球产业发展格局。 ”     为何人形机器人如此受关注?     人形是机器人的终极理想形态,在外形上与人最为相似,能完成的动作更多、更灵活,并且交互更具亲和性。其与传统工业/服务/特种机器人的最大不同在于其通用性,即不再根据预先规划完成特定任务,而是通过感知周边环境进行理解、学习并作出决策,且不再受限于单个场景,拥有真正意义上的具身智能。 为何是现在?     人形机器人之所以当前炙手可热,一是缘于近年来人工智能技术的飞速发展,包括语音识别、自然语言处理、图像识别、步态算法等方面的研究愈发成熟,大大提升了机器人的感知交互能力,而AI大模型的出现又使其能拥有更强的理解、学习和自主决策能力;二是在于硬件要素的提升,控制器、电机、精密减速器等部件性能提升让人形机器人有了从实验室走向市场的基础;三是在于配套产业的发展,全球机器人上下游产业链日趋完善,推动整机制造成本降低,这让人形机器人实现商业化变成可能。     二、国外人形机器人企业及产品盘点     1、人形机器人商业化赛道的领跑者——特斯拉,代表产品:Optimus、 Optimus2     特斯拉是人形机器人赛道的领跑者,也是全球电动汽车领军企业,其电动汽车制造与自动驾驶技术研发方面的积累为人形机器人研发提供了宝贵经验。     2021年8月,马斯克发布了特斯拉的人形机器人计划。仅一年后的2022年9月,Optimus(擎天柱)一代原型机就被推出,其身高173 cm ,重量约为73kg,集成2.3kWh电池,全身28个关节,整个身体的自由度超过200个,其中手掌通过6个执行器可完成11个自由度的动作,能举起超过20磅的物品。随后在经历3次迭代后,Optimus可完成流畅行走、物品抓取、物品分类、单脚站立、瑜伽表演等动作。马斯克表示, Optimus目标为代替人劳动,预计2025年至2027年量产,目标售价为2万美元左右,2024年将首先试用于特斯拉工厂。     Optimus采用了与特斯拉车辆相同的自研芯片、视觉方案,软件复用特斯拉汽车 FSD(完全自动驾驶)系统,算力调用特斯拉超级计算机Dojo超算,并像特斯拉汽车一样通过量产与技术进步控制单体制造成本。从这方面看,马斯克很可能在较早时就开始了人形机器人布局。     2023年12月,马斯克发布了Optimus 2的视频,Optimus 2相比Optimus重量减少10kg,动作更轻盈,平衡感和身体协调性得到改进,行走速度提升30%,可完成深蹲动作,颈部有2个自由度,手部动作也更为灵活,所有手指布有触觉 传感器 ,能轻松拿捏鸡蛋并实现左右手间传递以及叠衬衫等更精细化动作。     2、多年技术沉淀造就动态性能最强——波士顿动力,代表产品:ATLAS     波士顿动力是一家老牌的机器人设计公司,于1992年由马克·雷伯特教授创立于麻省理工学院,其深耕机器人领域三十余年,是 机器人技术 引领者。     波士顿动力的主要产品为四足机器人和人形机器人,以液压驱动和电液混合驱动为主。2005年,波士顿动力与美国国防高等研究计划署合作,推出四足机器人Big Dog,掀起了四足机器人的研究热潮,并在其后推出了LS3、Wild Cat、Spot等产品。在人形机器人领域,波士顿动力于2009年推出双足机器人Petman,主要用于检验美军防护服性能和军事设备,2013年发布人形机器人Atlas,其优越的动态性能在当时掀起轰动。     Atlas被称为最强动态性能人形机器人 ,其高1.5米,重约80千克,自由度28个,采用液压驱动,配备RGB相机和深度传感器。Atlas膝关节扭矩高达890N·m,髋关节扭矩达840N·m,步行速度达1.5m/s,拥有卓越的机动性,多次在演示中展现出近乎或超乎人类的运动与平衡能力。2021年发布的Atlas跑酷视频中,Atlas可以顺利完成跃平衡木、过斜坡、连续后空翻等动作。2023年1月,波士顿动力发布的Atlas人形机器人视频中,Atlas在工地给人类当助手,完成搭桥、爬楼、飞身旋转、向人类扔工具包、前空翻等灵敏动作。     尽管波士顿动力在技术上处于领先水平,但 商业化道路却进展缓慢 ,公司于近年先后被谷歌、日本软银与韩国现代汽车集团收购。Atlas售价过高,单台价值约200万美元,目前更多作为研发平台,暂未公布商业化计划。     3、与宝马达成合作的新起之秀——Figure,代表产品:Figure 01     Figure是一家AI机器人公司,成立于2022年,专注于设计自动通用人形机器人,成立至今共获得两轮共7900万美元融资。     Figure宣言 “要做世界上第一个商业上可行的通用人形机器人” , 创始人Brett Adcock指出,Figure与其他机器人公司如波士顿动力和亚马逊机器人的不同之处在于,Figure开发的机器人能够处理通用任务,并最终实现机器人对环境的学习和互动。     2023年10月,Figure正式推出该公司首款人形机器人Figure 01,对标特斯拉Optimus。Figure 01采用电驱动,身高167cm,重60kg,设计承载20kg,步速1.5m/s,续航达5小时,具有稳步行走、自主捡物品、搬运物品和自主导航的能力。     2024年1月,Figure 01一段煮咖啡的视频引起了各界关注。视频中,Figure 01只用了10个小时进行端到端训练,便自主完成打开机器盖、放入咖啡、启动机器的全过程。Figure 01还具备自主纠错的能力,如果咖啡包没有放在正确位置,它可以自行调整并继续完成任务。     目前Figure已与宝马达成合作。 在2024年1月,Figure与汽车制造商宝马签署了一项合作协议,将在宝马位于美国南卡罗来纳州的斯帕坦堡工厂部署人形机器人。初期,Figure 01将专注于五项特定的薄板金属处理任务,经少量测试后若达到性能目标,就将扩大应用规模。     4、仓储物流领域着重发力——Agility Robotics,代表产品:Digit     Agility Robotics是美国俄勒冈州立大学工程学院孵化的机器人公司,成立于2015年,在2020年被福特公司收购。公司于2017年推出第一个双足机器人Cassie,随后于2020年推出更像人类的Digit。Digit身高约1.75m,重65kg,最多可承载16kg,可以行走、跑步、爬楼梯、感知环境和手动搬运物品。     2023年3月,Agility推出新版Digit人形机器人, 主要用于物流领域 。该版Digit机器人身高175厘米,体重小于65kg,最多可承载16kg,采用可充电锂电池供电,续航能力达16小时。相比旧版,新版Digit增加了头部和手部,头部可以提供人机交互,手部呈小爪状,可以在保持平衡状态下搬运和装卸货物。根据Agility官网描述,新版Digit专为物流应用设计,目前主要用于搬运仓库的手提袋、包裹,未来还计划应用于货物卸载、配送等工作场景。     同时,Agility Robotics从2022年开始建造世界上 首家人形机器人制造工厂 。工厂位于美国俄勒冈州塞勒姆,占地7万平方英尺,据悉,该工厂每年可生产1万多台Digit,预计将于2024年开始向客户供货,2025年全面上市。     Agility Robotics 和亚马逊、福特等多公司有深入合作。 2019年5月,Agility Robotics 与福特汽车公司宣布建立合作伙伴关系,开发“最后一英里”无人物流解决方案;2023年10月,Digit人形机器人与亚马逊合作,主要用于帮助亚马逊仓库员工拾取和移动空手提箱,目前已在亚马逊工厂进行应用测试。     5、获OpenAI青睐的技术集成者——1X Technologies,代表产品:NEO、EVE     1X Technologies成立于2014年,是一家位于挪威的专注于开发具有高度灵活性和可扩展性的人形机器人制造商,其主要有两款人形机器人产品:EVE和NEO。     EVE 是1X的旗舰产品,已达成商业化,用于安保。 2020年,1X发布了EVE轮式人形机器人,身高186厘米,体重86千克,最高时速为14.4公里每小时,拥有15千克承载及6小时的续航能力。EVE配备摄像头和传感器,可以感知周围环境并与之互动。EVE的移动性、灵巧性和平衡性使其能够驾驭复杂的环境并有效地操纵物体,主要应用于物流、零售和守卫巡逻领域。2022 年,1X首次达成商业合作,签署了至少 140 台EVE机器人的分销合同,为美国商业场所提供安保服务;而在公司网站上显示,其还为医院等机构提供了约250 EVE台机器人,用于商业建筑的夜间警卫。     NEO为公司新一代产品,还在研发中,特点为轻量化和无齿轮设计。 根据1X官网,NEO身高167厘米,体重30千克,步行速度为4公里每小时,跑步速度为12公里每小时,拥有20kg的承载能力及2-4小时的续航能力。NEO将采用“无齿轮”设计理念,采用自研的无齿轮电机,大大降低整机重量,提高敏捷性。作为通用人形机器人,NEO可以处理物流、制造、操作机械等工业任务,同时提供清洁、整理家务以及日常陪伴等生活服务。     1X 获OpenAI融资支持,达成合作推动双向赋能。 2023年3月,1X 获得了一轮由OpenAI创业基金领投的2350万美元融资,成为了OpenAI投资的第一家硬件公司。同时,双方将在AI技术与机器人双向融合方面达成合作,一方面,1X的机器人为OpenAI的AI系统提供了绝佳的物理测试环境,从而增强其泛化能力和鲁棒性;另一方面,OpenAI的技术将全面提升机器人的智能程度,通过大模型的应用,有望创造出真正的“RobotGPT”,使1X机器人的学习理解能力更上一个台阶。     6、目标是太空探索——Apptronik,代表产品:Apollo     Apptronik于2016年成立,前身为美国得克萨斯大学奥斯丁分校的实验室,在近十年构建了超过10种独特的机器人。     Apptronik于2023年8月公布了人形机器人 Apollo。Apollo高1.7米,重72.6 kg,负载25kg,采用电机驱动,可以在室内或室外不受束缚的情况下工作22个小时。Apollo的特点在于 多部件模块化设计 ,如腿部可更换为固定桩,以此适应不同场合的工作需要;电池支持热插拔设计,以方便人形机器人续航。预计2025年实现商业化,拟售价不高于5万美元。     Apollo 的短期目标是 辅助物流领域 ,在演示视频中也展现出了其具有拿起、搬运、放下物体的能力。而作为与NASA深度合作的机器人公司, Apptronik 的长期目标是将 Apollo 用于太空探索 ,进行探测、太空作业等复杂任务,但目前来看还有较长的路要走。     三、国内人形机器人企业及产品盘点     1、国内人形机器人第一股——优必选,主要产品:Walker系列     优必选科技成立于2012年3月,总部位于深圳,从 伺服 舵机研发起步,逐步推出了消费级人形机器人、教育智能编程机器人、商用服务机器人、智能巡检机器人等产品。2023年12月29日,优必选在香港交易所主板挂牌上市,成为 中国“人形机器人第一股”。     优必选是国内最早开始研究人形机器人的企业之一,于2016年开始研发人形机器人Walker系列,2018年成功推出第一代大型双足仿人服务机器人Walker, 成为中国首家实现人形机器人商业化的企业。     随后,该产品经历了几次重要的技术迭代,在2019年推出第二代Walker,并在春节晚会上进行了表演。2021年推出了Walker X,该机器人身高130cm,体重63kg,拥有41个高性能伺服关节构成的灵巧四肢,并搭载了多维力觉、多目立体视觉、全向听觉和惯性、测距等全方位的感知系统,行走速度提升到3km/h。拥有复杂地形自适应平稳快速行走、动态足腿控制自平衡抗干扰、自主操作家电、全身柔顺控制、U-SLAM视觉导航、多模态情感交互、智能家居控制6大特性。     优必选伺服驱动器技术领先。 优必选成功开发了机器人操作系统应用框架(ROSA),是全球少数完成小扭矩到大扭矩(扭矩从0.2N·m到200N·m)伺服驱动器批量生产的公司之一。     2、会打乒乓球的人形机器人——浙江大学控制科学与工程学院,代表产品:悟空系列     浙江大学自2006年起开始研制人形机器人,突破了自适应精确建模、动态平衡控制、全身协调控制、智能感知决策等核心技术,先后完成四代“悟空”系列人形机器人系统研制。     2016年仿人机器人“悟空”1.0的亮相引起瞩目,在国际上形成了较大影响。“悟空”1.0身高1.6米,体重55kg,身躯采用了高强度轻质材料和 加工工艺 ,全身有30个关节,手臂为7个自由度。 “悟空”最大的亮点在于其优秀的运动性能,可以进行人-机、机-机对打乒乓球。 通过头上安装的摄像头以每秒120幅图像的速度捕捉乒乓球在空中的运动轨迹,精准地预测球的落点,误差不到2.5厘米;然后做出相应的反应动作,而且还可以与人对打,整个反应时间在50-100毫秒之间。     在之后经过多次迭代,2023年,悟空“4.0”在世界机器人大会现场登场。新款悟空身高140cm,体重46kg,全身自由度27个。 通过融合腿足运动技术与环境感知技术,实现了机器人的三维环境地图构建和自主动态导航。 运动能力相比1代更为出色,最快运动速度超过6km/h,跳高0.5m,可上下25度斜坡和10cm台阶,可轻松跨越障碍,可适应室外路面、草丛、泥地等多种地形。在钢管路面和外部推力干扰等未知扰动下,可快速恢复平衡并保持稳定行走。     目前,浙江大学研制的人形机器人正朝着实用化应用方向不断迭代和改进。     3、从医疗康复机器人到通用人形机器人——傅里叶智能,代表产品:GR-1     傅利叶智能成立于15年,总部位于上海张江机器人谷, 是国内康复医疗机器人领域的领军企业 ,迄今为止已经成功推出了30多个系列产品,并服务于全球2000多家医疗机构。     傅里叶智能早期专注于医疗康复外骨骼机器人,并实现了规模化应用,同时将其在医疗康复机器人取得的商业成果与技术积累转向通用人形机器人。公司在2019年启动通用人形机器人项目,2023年7月发布首款通用双足机器人产品       GR-1,并于9月开启预售,商业化进展快速。     GR-1身高165cm,体重55kg,全身自由度54个,采用一体化自研关节模组作为执行器,以及直腿行走方案,模拟人类直膝行走的自然步态,其步速可达5km/h,具备快速行走、敏捷避障、稳健上下坡、抗冲击干扰等功能,预计将应用于在工业、康复、居家、科研等多种应用场景。     4、国内首个能跑的人形机器人——宇树科技,代表产品:H1     宇树科技总部位于杭州,成立于2016年,是国内四足机器人领域的领先企业。有Laiakgo、Aliengo、A1、Go1、B1、H1等多款机器人产品,累积销量数千台。     2023年8月,宇树科技发布首款人形机器人H1,引起了广泛关注。H1采用 轻量化设计 ,高180cm,重量仅有47kg,全身19个自由度,配有3D激光雷达和深度相机,具有360°全景感知能力,能实现自主避障。     为适配大负载、高密度、大功率的需要,宇树科技为H1设计了大扭矩密度M107关节电机,应用在H1的两个膝关节上,峰值扭矩达到360N·m,而髋关节电机扭矩则为220N·m,踝关节为45N·m,手臂关节则为75N·m。据称,目前H1关节单元中核心零部件包括 伺服电机 、减速器、控制器均为宇树自研自产。     H1的运动能力十分优秀,行走速度达1.5m/s,而潜在运动能力可以达5m/s,在速度、力量、机动灵活性等方面具备全球近似规格最高的动力性能, 是国内首个能跑的人形机器人。     根据宇树展示的视频显示,H1的运动控制稳定,抗冲击能力较强,在受到外部冲击后,能够快速调整姿态,并保持身体平衡。     目前H1的手部还在开发中,整机预计3-5年内上市,应用于商用服务及科研教育。     5、主打服务于人——小米科技,代表产品:CyberOne     小米科技以智能手机和智能家居闻名,在2021年推出四足机器人Cyberdog后,又于2022年8月发布了全尺寸人形仿生机器人CyberOne(铁大)。     CyberOne身高177cm,体重为52kg,全身有5种关节驱动,共21个自由度,动力峰值扭矩高达300N·m,上肢有小米自研的30N·m扭矩电机,电机重量仅为500g,动作灵活,可单手抓握1.5kg的物体。下肢配合自研的人形双足控制算法,行走速度达3.6km/h。     CyberOne的特点在于人机交互。 通过自研的Mi-Sense深度视觉模组,可以对人脸、肢体动作等外界环境进行感知,在8米范围内进行三维重建,并通过自然语言处理算法感知6类45种人类语义情绪,分辨85种环境语义,使得其在与人交流时更为自然。脸部采用面罩设计,外层半透明材质,内层为OLED与柔光特效,搭配2D弯曲贴合显示模组,可实时表达机器人情绪。因此,其应用场景也更偏向于生活服务。     6、精英汇集的赛道新星——智元机器人,代表产品:远征A1     智元机器人成立于2023年2月,创始团队包括华为“天才少年”稚晖君、彭志辉等业界资深人士,拥有较强的技术背景和产业资源。     创立仅仅半年,智元机器人就于2023年8月发布了人形机器人远征A1,A1身高175cm,体重55kg,全身49+个自由度,步行速度可达7km/h,整机承重80kg,单臂最大负载5kg。膝盖采用反关节设计,膝盖向后弯曲可以拥有更大的空间,以应对更多的任务场景。     A1上搭载的PowerFlow关节电机为自研开发,使用了准直驱关节方案,实现了低齿槽转矩设计,搭配10速比以内的高力矩透明度行星减速器、共扼同轴双编码器、一体液冷循环散热系统以及自研的矢量控制驱动器,峰值扭矩超过350N·M,而重量仅为1.6kg。搭载RGBD相机、激光雷达,IMU以及麦克风阵列。灵巧手指尖集成了基于视觉的指间传感器,可以分辨被操做物体的颜色、形状甚至材质,并且基于算法可以实现近似压力传感器的效果。同时远征A1搭载了TeraFlops的高算力芯片,具备多模态感知、少样本学习、任务闭环等能力。     远征A1预计将于24年实现商业化落地,售价将控制在20万元以内,将首先应用于3C制造,汽车制造等领域,随后逐步走向家庭,协助工人、科研人员和家庭成员完成各种任务。     6、国内人形机器人商业化的先行者——开普勒,代表产品:先行者系列     开普勒机器人公司总部位于上海,成立于2023年8月,专注于通用人形机器人的研发、生产及应用生态构建。公司主要技术团队在2020年就开始了人形机器人的研究与开发,并经历了3代的原型机迭代。     在公司成立的同年11月,开普勒推出了第四代机器人产品——先行者系列通用人形机器人,分为先行者K1、S1、D1三个型号,在人形机器人赛道正式出场。     先行者机系列身高178cm,体重85kg,全身共40个关节自由度,其中灵巧手共有12个自由度。K1是标准款机器人,适用于教育科研、自动化生产线、智能搬运等;S1适用于复杂环境巡检、应急救援、户外安全作业等,主要用于户外巡检;D1主要面向危险环境检测、安全隐患排查等高危环境作业。      开普勒的人形机器人国产化率很高, 除了机器人主板等少数零部件采用国外厂商供应外,其余均为自研且已经实现国产化。     先行者系列预计在2024年下半年实现量产落实, 预估对外售价2-3万美金之间,和特斯拉擎天柱的价格相当。     除了机器人, 开普勒的另一大业务板块在开发者平台Kepler OS。 不同于特斯拉的平台封闭策略,Kepler OS允许使用者进行系统集成或二次开发,平台采用模块化设计,提供丰富的示例项目和开发文档,并支持多机 协同 ,提供强大的在线开发和调试功能。     四、结语     总体来看,国内外人形机器人商业化尚处于初期,但多数产品在研发设计之初就充分考虑了与应用单位的合作、成本控制的路径等,为汽车制造、仓储物流等领域的率先商业化批量应用积累条件,国外头部企业在这方面的表现更为明显。在技术积累与产品性能方面,国内企业与国外企业相比有一定差距,但从公布的技术参数来看,差距并非短期内不可逾越,应用为王、成本为王,技术、应用与成本三者相互交织,国内企业自有优势。     人形机器人是机器人的终极理想形态,除了用于生产外,很可能像计算机、汽车、智能手机一样走入千家万户,以此极大改变人类的生活方式;开拓性公司是推动社会发展的重要力量,随着特斯拉人形机器人与AI大模型的快速发展以及众多公司百舸争流局面的形成,相信这一前景终将呈现。同样,考虑到人形机器人市场巨大,以及当前产业处于发展初期、百舸争流局面刚刚起势,故 谁主沉浮远未定论,有志者事竟成,未来人形机器人产业很可能出现头牌引领、百花齐放的局面 ,让我们拭目以待。