《王兴兴:目前机器人硬件完全够用,最大的问题还是AI模型》

  • 来源专题:智能制造
  • 编译者: icad
  • 发布时间:2025-09-12
  • 在9月11日的2025外滩大会圆桌讨论环节,宇树科技创始人兼首席执行官王兴兴表示,在机器人领域,硬件和大脑不是同一层面的事,现阶段,机器人硬件完全足够用,“用一两年都可以”,最大的问题还是AI大模型本身能力不够用,在多模态融合方面表现还不够理想。

    王兴兴表示,目前纯语言模型或纯视频模型的效果已经非常好,但如果要把语言和图像很好地结合起来,仍是一个较大的难点。在机器人领域,现阶段没有很好的办法把硬件用起来。比如如何用模型控制机器人灵巧手等,目前还存在一定挑战。他表示,虽然AI在信息处理、文字图像等领域,AI应用的表现已经非常好,但让AI干活的领域还是荒漠,只是长了几棵小草,爆发性增长的前夜还未到来。

    “现在是对年轻人非常友好的时代,AI时代是一个非常公平的时代”,王兴兴认为,年轻人可以用AI模型自己学编程等。他鼓励大家可以对AI模型的认知更激进一些,可以不仅仅把AI仅仅当作一个工具,还可以把它当作一个全能型的工具,去重新学习和接受它,把它用得更好。

    近期,宇树科技正积极推进IPO相关工作,王兴兴在现场提到现在作为公司CEO管理问题,他表示,公司现阶段一直缺乏顶尖人才,其次是发现公司人多了管理效率更低,“到头来我还是得稍微管理一下。”

    王兴兴谈起AI时代,他最大的感受。“大家可以把过去20多年前所学的、已经发生的事情能忘的尽量忘了,不要依赖过去的经验对未来做决策,这样可能会有新的灵感。”

  • 原文来源:https://www.robot-china.com/news/202509/11/93998.html
相关报告
  • 《宇树科技王兴兴:未来3到5年人形机器人应用会越来越快》

    • 来源专题:智能制造
    • 编译者:icad
    • 发布时间:2025-07-17
    • 民营经济发展前景广阔、大有可为,广大民营企业和民营企业家大显身手正当其时。7月15日,国务院新闻办公室举行“新征程上的奋斗者”中外记者见面会。杭州宇树科技股份有限公司创始人兼首席执行官王兴兴、山东魏桥创业集团有限公司董事长张波、内蒙古鄂尔多斯投资控股集团有限公司总裁王臻、北京星河动力航天科技股份有限公司创始人、董事长刘百奇、九州通医药集团股份有限公司董事长刘长云5位民营企业家代表围绕“弘扬企业家精神,坚定做优秀中国特色社会主义事业建设者”,讲述践行企业家精神,怀揣梦想、勇于奋斗,心怀感恩、积极奉献,展现了强烈社会责任感和家国情怀,必将激励和带动广大民营企业、民营企业家在强国建设、民族复兴伟业中,作出新的更大贡献。 王兴兴:未来3到5年人形机器人应用会越来越快 杭州宇树科技股份有限公司主要是做高性能四足机器人和人形机器人,在过去取得了一些成绩,很多技术指标目前处于全球领先水平。2024年,杭州宇树科技股份有限公司发布了G1这款人形机器人,在全球范围内受到广泛关注,2025年出货量相对2024年有明显增长。王兴兴表示,不单是杭州宇树,对整个机器人行业来说,2025年上半年增长速度非常快,科技发展趋势非常明显。“随着AI等科技发展,人形机器人应用范围越来越广泛。”王兴兴认为。 宇树科技一直非常相信,跟通用AI一起的通用机器人,必将成为未来科技的主流路线。最近几年,人形机器人在国内外非常火热,目前处在相对早期阶段,要多给一些耐心,未来3到5年人形机器人应用会越来越快。目前,人形机器人已经有一些应用场景,国内外不少公司包括宇树科技人形机器人出货量都有明显增长,服务业、家用、工业场景、危险场景救援救灾场景都有推进。 杭州宇树过去做了很多软件开源,包括很多客户在机器人身上做了很多开发和应用,目前机器人和AI面临很大挑战,需要全球共同努力把技术和产品做好,为全世界提供更好的服务。王兴兴表示,人形机器人技术发展方向和产品发展方向,全世界的共同目标是类似的,希望真正地把机器人推广到各种应用场景中,无论是工业、服务业还是消费领域,推动整个社会的技术进步和产品进步。但是,由于每个国家各自的文化和产业背景有差异,比如我国有很深厚的生产制造和硬件功底,美国有很丰富的AI软件生态,各有优势,值得共同推动与合作。 王兴兴承认,目前在人形机器人这块非常有挑战,需要全球共同努力,发挥各自的优势,共同推动人形机器人技术进步,推动整个行业发展是非常有价值的一件事情,全球共赢的状态是可以达到的。王兴兴对民营经济发展充满了信心,因为有很好的政策、很好的土壤,这让民营经济有更多的信心投入研发、投入生产,做出更多面向未来的新产品、新技术。 张波:未来将继续深耕实体经济 山东魏桥创业集团有限公司起源于山东的一家小型油棉加工厂,经过几十年发展已经成长为一个拥有10万名员工的综合性跨国企业,自2012年以来连续入选世界500强。山东魏桥创业集团有限公司董事长张波介绍,山东魏桥创业集团有限公司主要业务聚焦于纺织和铝业两大传统制造业板块,属于传统制造业。目前,正在积极向新能源、新材料、汽车轻量化等新兴领域延伸,致力于把传统制造业做精做强,为中国经济发展贡献力量,未来将继续深耕实体经济,努力在高质量发展中展现更大作为。 传统制造业要实现转型升级、高质量发展,特别是在新型工业化背景下,怎样推动传统制造业高质量发展,魏桥创业集团在摸着石头过河,吃过苦头,也尝过甜头,总结了三条实实在在的路径:一是绿色低碳发展。二是数智化转型。三是创新驱动。对传统制造业来讲,要实现高质量发展,突破一些发展瓶颈,需要厚积薄发,这很不容易。 山东魏桥从2019年开始,从山东转移200多万吨电解铝产能去云南,利用云南丰富的水电资源,把煤电生产变成用水电生产,实现绿色化转型,不仅大大提高了集团能源绿色占比,也大大减少了生产过程中的碳排放总量,同时还为云南经济发展作出了贡献。因为,发展西部需要工业带动,更让人欣喜的是实现了社会、企业和百姓共同发展的良好局面。7月9日,山东魏桥在云南的第二个绿色铝产业基地的投产,这是山东魏桥响应我国绿色低碳高质量发展号召,实施绿色转型的重大举措。 魏桥创业集团的核心价值观就是“为国创业、为民造福”,秉持的企业使命就是实业报国、制造业强国。年轻一代管理者一定要继承这个精神底色,牢记自己从哪里来,要到哪里去,不忘初心、砥砺前行。不但要把企业管理好,还要把企业经营好,更要为党和国家负责、为社会负责、为员工负责,持之以恒履行好企业的社会责任。2018年,张波接过了父辈的接力棒掌管魏桥创业集团,传承的不仅是父辈的财富和权力,更是父亲那一代创业人的家国情怀和艰苦创业的工作作风,这也是支撑他带领新的董事会这些年一路披荆斩棘、谋求高质量发展的核心动力。 王臻:不能把中国的原料优势拱手相让 中国有全世界最好的羊绒,内蒙古鄂尔多斯投资控股集团有限公司总裁王臻就想,为什么不能有一个最好的羊绒品牌和世界一线大牌媲美?后来王臻接手了内蒙古鄂尔多斯投资控股集团有限公司羊绒业务和其他业务,开始推动鄂尔多斯系列品牌的重塑、焕新以及时尚化升级,推动公司重大的战略变革、组织变革以及技术攻关,现在正在全力推动集团羊绒服装和电力冶金两个板块的系统化提升。她认为,国家战略已经为企业发展锚定了很好方向,通过鄂尔多斯集团40多年的实践感受到企业因国家的发展而发展、因国家的强大而强大。“中国作为核心的、最好的产绒国之一,中国企业一定要发挥引领作用,不能把中国的原料优势拱手相让。”王臻强调。 王臻和鄂尔多斯企业同龄,可以说有一个“纯羊绒系”的童年,她从小是在羊绒衫厂的厂区里长大,看到像云朵一样洁白柔软的羊绒被纺成一道道纱线,又在穿梭中织成了一件件漂亮的毛衣,她感到非常神奇。虽然王臻上大学读的理工科,毕业以后像很多同学一样在战略管理公司做了两年,但依然没有能够压抑住她对羊绒这种发自内心的热爱和向往,所以在2006年创立了1436这个高端羊绒品牌。 即使传统产业,如果可以靠创新来实现产业不断升级,就有能力打造百年老店。王臻介绍,内蒙古鄂尔多斯投资控股集团有限公司羊绒产业非常独特,可能是在全世界独一无二的,百分之百拥有自己的全产业链,应该发挥这样的产业优势,用科技创新带动产业创新,用产业创新与升级,再赋能牧户、牧民,形成很好的正向循环。由此,构建一个乡村振兴、产业可持续发展、上下游企业可以共生共融的温暖图景。目前,行业处于深度转型期,挑战是多方面的。一方面是来自技术革命的汹涌浪潮,另一方面面临全球产业链重塑。 在市场端,面临日益叠加、迭代以及日益多元化的消费者需求,就像一个数轴上有A就有-A,发展的核心是要通过创新和系统升级实现高质量发展。在制造端,创新场景更加丰富,增加产品的生态附加值,引领行业向更健康、友好方向转型。在市场端,做消费者的洞察,因为品牌文化不一定在于“形”,一定在于“神”,在于内涵和底蕴。在渠道端,渠道端的变革是颠覆性的、是巨大的,线上线下已经深度交织、互相赋能,对于整个渠道系统、商品系统都有了整体的效率提升。 刘百奇:已经将81颗卫星送入太空 北京星河动力航天科技股份有限公司创始人、董事长刘百奇毕业于北京航空航天大学,2018年为响应国家“双创”号召,他决定创业,创建了一家造火箭的民营企业——星河动力公司。北京星河动力航天科技股份有限公司的商业模式就是用自己研制的火箭把客户的卫星送入太空,然后收取发射服务费、运费等,可以理解为是一家往太空“送快递”的公司,面对的市场是低轨卫星、互联网这样的市场。根据相关数据统计,未来10年可能有几万颗这样的卫星要进入太空,这就给火箭这种特殊的太空运输工具提供了巨大市场需求。 商业航天产业是全球范围内蓬勃发展的新兴产业,是能把一个企业家的创业梦想和国家经济发展乃至人类共同命运结合在一起的特殊产业,也是一个值得航天人托付终生的产业。2014年,我国出台政策支持鼓励民间资本和社会力量从事航天科研生产活动,大力支持发展商业航天。刘百奇认为,作为一名航天人,刘百奇特别珍惜国家向民营企业开放商业航天的政策机遇,同时看到商业航天未来市场前景非常广阔,2018年毅然决定向梦想出发,成立星河动力。 民营企业在科技创新中发挥的作用越来越大,商业航天领域有越来越多的民营企业加入这个行业,共同推动了商业航天产业快速发展。2020年11月7日,星河动力公司自主研制的第一款产品谷神星一号在酒泉卫星发射中心首飞取得圆满成功,这是中国第一次用民营企业的火箭把商业卫星送入500公里太阳同步轨道。截至目前,北京星河动力航天科技股份有限公司完成了19次火箭发射任务,将81颗卫星送入太空,成为国内发射次数最多、成功率最高的民营火箭公司。 民营企业在科技创新中发挥的作用越来越大,商业航天领域有越来越多的民营企业加入这个行业,共同推动了商业航天产业快速发展。刘百奇介绍,2025年6月18日,证监会推出新政,在科创板设立科创成长层,把商业航天纳入第五套标准。国家越来越重视民营经济的发展,政策环境也在不断优化,为民营企业创造了广阔的空间。关于未来,刘百奇有两方面想法。一方面正在研发更大、更强的运载火箭,比如正在研制一款火箭智神星2号。一方面以火箭技术为基础拓展其他业务,比如拓展在轨服务、在轨试验等领域。 刘长云:实体企业要以“质”为刃 九州通医药集团股份有限公司董事长刘长云是一名法学博士,2017年加入九州通,当时考虑有几个方面:第一,他来自农村,从小目睹了农村医疗水平还有很大提升空间,九州通主要定位于为农村提供医疗服务,在他心目中是一个理想的选择。第二,他觉得大健康产业作为朝阳产业,是万亿级的产业,发展的前景比较好。第三,他自从参加工作就做风控管理,有比较丰富的经验,他认为法律对于一个企业来讲,不仅是维护企业合法权益的利器,也是一个企业构建现代化的风控体系、护航企业行稳志远的保障。 “九州通当时发展比较迅速,治理有风控的要求,基于这些原因加入了九州通,2020年接任集团董事长后,探索从创始人团队治理向职业经理人团队治理的转型。”刘长云表示。 当今时代给民营企业家广阔的发展空间,一是政策给力。国家对民营经济的重视和支持,从顶层设计到落地执行的力度是空前的,而且宏观政策因势调整,力度在不断加码。二是市场巨大。我国拥有全球最具潜力的消费市场,就医药领域来说市场规模将近5万亿,随着健康消费的升级,市场将进一步扩容。三是科技赋能。数字化、人工智能正在重塑医药行业的发展格局,以科技为核心的转型正是企业打造新质生产力、培育核心竞争力的关键所在。 作为新时代的民营企业家,践行和弘扬企业家精神有几个路径:一是用创新引擎打造新质生产力,扛起科技自立自强责任,这是新时代建设者的硬核担当。二是践行共同富裕,厚植民生发展根基,九州通在新疆开展了“小药箱”项目,就是通过参与基层和农村地区的基本医疗保障体系等方式践行社会责任。当前,国家正在力推新质生产力,作为实体企业要以“质”为刃,用创新取代粗放式增长,同时要注重内涵式增长,追求高质量发展。“展望未来,伴随着各项政策红利的持续释放,民营经济的明天会更加美好,政策的支持将会更加稳定长效,市场容量也会持续扩大,创新的活力也会愈发强劲有力。”刘长云说。
  • 《AI大模型迈向多模态,助力具身智能与机器人实现创新》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:胡思思
    • 发布时间:2024-10-28
    • 你听过莫拉维克悖论 (Moravec's paradox) 吗?该悖论指出,对于人工智能 (AI) 系统而言,高级推理只需非常少的计算能力,而实现人类习以为常的感知运动技能却需要耗费巨大的计算资源。实质上,与人类本能可以完成的基本感官任务相比,复杂的逻辑任务对 AI 而言更加容易。这一悖论凸显了现阶段的 AI 与人类认知能力之间的差异。 人本来就是多模态的。我们每个人就像一个智能终端,通常需要去学校上课接受学识熏陶(训练),但训练与学习的目的和结果是我们有能力自主工作和生活,而不需要总是依赖外部的指令和控制。 我们通过视觉、语言、声音、触觉、味觉和嗅觉等多种感官模式来了解周围的世界,进而审时度势,进行分析、推理、决断并采取行动。 经过多年的传感器融合和 AI 演进,机器人现阶段基本上都配备有多模态传感器。随着我们为机器人等边缘设备带来更多的计算能力,这些设备正变得愈加智能,它们能够感知周围环境,理解并以自然语言进行沟通,通过数字传感界面获得触觉,以及通过加速计、陀螺仪与磁力计等的组合,来感知机器人的比力、角速度,甚至机器人周围的磁场。 迈入机器人和机器认知的新时代 在 Transformer 和大语言模型 (LLM) 出现之前,要在 AI 中实现多模态,通常需要用到多个负责不同类型数据(文本、图像、音频)的单独模型,并通过复杂的过程对不同模态进行集成。 而在 Transformer 模型和 LLM 出现后,多模态变得更加集成化,使得单个模型可以同时处理和理解多种数据类型,从而产生对环境综合感知能力更强大的 AI 系统。这一转变大大提高了多模态 AI 应用的效率和有效性。 虽然 GPT-3 等 LLM 主要以文本为基础,但业界已朝着多模态取得了快速进展。从 OpenAI 的 CLIP 和 DALL·E,到现在的 Sora 和 GPT-4o,都是向多模态和更自然的人机交互迈进的模型范例。例如,CLIP 可理解与自然语言配对的图像,从而在视觉和文本信息之间架起桥梁;DALL·E 旨在根据文本描述生成图像。我们看到 Google Gemini 模型也经历了类似的演进。 2024 年,多模态演进加速发展。今年二月,OpenAI 发布了 Sora,它可以根据文本描述生成逼真或富有想象力的视频。仔细想想,这可以为构建通用世界模拟器提供一条颇有前景的道路,或成为训练机器人的重要工具。三个月后,GPT-4o 显著提高了人机交互的性能,并且能够在音频、视觉和文本之间实时推理。综合利用文本、视觉和音频信息来端到端地训练一个新模型,消除从输入模态到文本,再从文本到输出模态的两次模态转换,进而大幅提升性能。 在今年二月的同一周,谷歌发布了 Gemini 1.5,将上下文长度大幅扩展至 100 万个词元 (Token)。这意味着 1.5 Pro 可以一次性处理大量信息,包括一小时的视频、11 小时的音频、包含超过三万多行代码或 70 万个单词的代码库。Gemini 1.5 基于谷歌对 Transformer 和混合专家架构 (MoE) 的领先研究而构建,并对可在边缘侧部署的 2B 和 7B 模型进行了开源。在五月举行的 Google I/O 大会上,除了将上下文长度增加一倍,并发布一系列生成式 AI 工具和应用,谷歌还探讨了 Project Astra 的未来愿景,这是一款通用的 AI 助手,可以处理多模态信息,理解用户所处的上下文,并在对话中非常自然地与人交互。 作为开源 LLM Llama 背后的公司,Meta 也加入了通用人工智能 (AGI) 的赛道。 这种真正的多模态性大大提高了机器智能水平,将为许多行业带来新的范式。 例如,机器人的用途曾经非常单一,它们具备一些传感器和运动能力,但一般来说,它们没有“大脑”来学习新事物,无法适应非结构化和陌生环境。 多模态 LLM 有望改变机器人的分析、推理和学习能力,使机器人从专用转向通用。PC、服务器和智能手机都是通用计算平台中的佼佼者,它们可以运行许多不同种类的软件应用来实现丰富多彩的功能。通用化将有助于扩大规模,产生规模化的经济效应,价格也能随着规模扩大而大幅降低,进而被更多领域采用,从而形成一个良性循环。 Elon Musk 很早就注意到了通用技术的优势,特斯拉的机器人从 2022 年的 Bumblebee 发展到 2023 年三月宣布的 Optimus Gen 1 和 2023 年年底的 Gen 2,其通用型和学习能力不断提高。在过去的 6 至 12 个月里,我们见证了机器人和人形机器人领域所取得的一系列突破。 下一代机器人和具身智能背后的新技术 毋庸置疑的是我们在具身智能达到量产方面还有很多工作要做。我们需要更轻便的设计、更长的运行时间,以及速度更快、功能更强大的边缘计算平台来处理和融合传感器数据信息,从而做出及时决策和控制行动。 而且我们正朝着创造人形机器人的方向发展,人类文明数千年,产生出无处不在的专为人类设计的环境,而人形机器人系统由于形体与人们类似,有望能够在人类生存的环境中驾轻就熟地与人类和环境互动并执行所需的操作。这些系统将非常适合处理脏污、危险和枯燥的工作,例如患者护理和康复、酒店业的服务工作、教育领域的教具或学伴,以及进行灾难响应和有害物质处理等危险任务。此类应用利用人形机器人类人的属性来促进人机自然交互,在以人为中心的空间中行动,并执行传统机器人通常难以完成的任务。 许多 AI 和机器人企业围绕如何训练机器人在非结构化的新环境中更好地进行推理和规划,展开了新的研究与协作。作为机器人的新“大脑”,预先经过大量数据训练的模型具有出色的泛化能力,使得机器人能做到见怪不怪,更全面地理解环境,根据感官反馈调整动作和行动,在各种动态环境中优化性能。 举一个有趣的例子,Boston Dynamics 的机器狗 Spot 可以在博物馆里当导游。Spot 能够与参观者互动,向他们介绍各种展品,并回答他们的问题。这可能有点难以置信,但在该用例中,比起确保事实正确,Spot 的娱乐性、互动性和细腻微妙的表演更加重要。 Robotics Transformer:机器人的新大脑 Robotics Transformer (RT) 正在快速发展,它可以将多模态输入直接转化为行动编码。在执行曾经见过的任务时,谷歌 DeepMind 的 RT-2 较上一代的 RT-1 表现一样出色,成功率接近 100%。但是,使用 PaLM-E(面向机器人的具身多模态语言模型)和 PaLI-X(大规模多语言视觉和语言模型,并非专为机器人设计)训练后,RT-2 具有更出色的泛化能力,在未曾见过的任务中的表现优于 RT-1。 微软推出了大语言和视觉助手 LLaVA。LLaVA 最初是为基于文本的任务设计的,它利用 GPT-4 的强大功能创建了多模态指令遵循数据的新范式,将文本和视觉组件无缝集成,这对机器人任务非常有用。LLaVA 一经推出,就创下了多模态聊天和科学问答任务的新纪录,已超出人类平均能力。 正如此前提到的,特斯拉进军人形机器人和 AI 通用机器人领域的意义重大,不仅因为它是为实现规模化和量产而设计的,而且因为特斯拉为汽车设计的 Autopilot 的强大完全自动驾驶 (FSD) 技术基础可用于机器人。特斯拉也拥有智能制造用例,可以将 Optimus 应用于其新能源汽车的生产过程。 Arm是未来机器人技术的基石 Arm 认为机器人脑,包括“大脑”和“小脑”,应该是异构AI 计算系统,以提供出色的性能、实时响应和高能效。 机器人技术涉及的任务范围广泛,包括基本的计算(比如向电机发送和接收信号)、先进的数据处理(比如图像和传感器数据解读),以及运行前文提到的多模态 LLM。CPU 非常适合执行通用任务,而 AI 加速器和 GPU 可以更高效地处理并行处理任务,如机器学习 (ML) 和图形处理。还可以集成图像信号处理器和视频编解码器等额外加速器,从而增强机器人的视觉能力和存储/传输效率。此外,CPU 还应该具备实时响应能力,并且需要能够运行 Linux 和 ROS 软件包等操作系统。 当扩展到机器人软件堆栈时,操作系统层可能还需要一个能够可靠处理时间关键型任务的实时操作系统 (RTOS),以及针对机器人定制的 Linux 发行版,如 ROS,它可以提供专为异构计算集群设计的服务。我们相信,SystemReady 和 PSA Certified 等由 Arm 发起的标准和认证计划将帮助扩大机器人软件的开发规模。SystemReady 旨在确保标准的 Rich OS 发行版能够在各类基于 Arm 架构的系统级芯片 (SoC) 上运行,而 PSA Certified 有助于简化安全实现方案,以满足区域安全和监管法规对互联设备的要求。 大型多模态模型和生成式 AI 的进步预示着 AI 机器人和人形机器人的发展进入了新纪元。在这个新时代,要使机器人技术成为主流,除了 AI 计算和生态系统,能效、安全性和功能安全必不可少。Arm 处理器已广泛应用于机器人领域,我们期待与生态系统密切合作,使 Arm 成为未来 AI 机器人的基石。