《当机器人“拥抱”AI大模型,会开出一朵怎样的花?》

  • 来源专题:新一代信息技术
  • 编译者: 张卓然
  • 发布时间:2023-06-29
  •   今年以来,随着AI大模型技术的“爆发”,人形机器人再一次“走红”,AI大模型+人形机器人,加速机器人从科幻走进现实。

      众所周知,人形机器人是具有与人类似外观和运动方式的智能机器人,具有类人的感知、决策、行为和交互能力,应用场景包括工业、医疗、教育、娱乐、生活等领域,目前正逐渐打开通用场景的“大门”。

      在工业应用领域,相比于工业机器人和协作机器人,人形机器人更具自身优势,应用也更加通用、复杂,可以有效降低人力成本、提升工作效率。

      近日,北京市为加快推动机器人产业创新发展,北京市人民政府办公厅印发了《北京市机器人产业创新发展行动方案(2023—2025年)》(以下简称《方案》)。

      《方案》主要目标提出,到2025年,北京市机器人产业创新能力大幅提升,培育100种高技术高附加值机器人产品、100种具有全国推广价值的应用场景,万人机器人拥有量达到世界领先水平,形成创新要素集聚、创新创业活跃的发展生态。同时,全市机器人核心产业收入达到300亿元以上,打造国内领先、国际先进的机器人产业集群。

      着眼世界前沿技术和未来战略需求,北京市在《方案》中着重提到“加紧布局人形机器人”。以人形机器人小批量生产和应用为目标,打造通用智能底层软件及接口、通用硬件开发配套设施等基础条件,集中突破人形机器人通用原型机和通用人工智能大模型等关键技术,大力推动开源控制系统、开源芯片、开源仿真软件等研制和应用。

      此外,北京市还要着力提升机器人关键支撑能力,增强人工智能大模型、产业关键核心技术、关键零部件等基础支撑能力。

      尤其在“强化人工智能大模型支撑”方面,《方案》提出,开发并持续完善机器人通用人工智能大模型,挖掘应用场景资源,为模型预训练提供多样化场景数据支持,提高模型通用性和实用性。突破大模型多模数据融合关键技术,研发图像、文本、语音及力、热、电、磁等多模传感数据融合处理的大模型系统。针对各类机器人技术和应用场景特征,开发大模型高效微调算法,推动大模型在机器人领域的深化应用等。

      2023年5月18日,上海市人民政府办公厅印发《上海市推动制造业高质量发展三年行动计划(2023-2025年)》。重点任务中提到瞄准人工智能技术前沿,构建通用大模型,面向垂直领域发展产业生态,建设国际算法创新基地,加快人形机器人创新发展等。

      现如今,AI大模型已经开始了在机器人领域的“挖呀挖呀挖”之旅,种下智能化的种子后,不知会开出怎么的花呢?

      招商证券研报认为,人形机器人有望持续印证“AI软切硬”逻辑,有望成为“AI+”终极应用。麦肯锡报告显示,到2030年,全球约有4亿个工作岗位将被自动化机器人取代,全球人形机器人市场规模将达855亿元。

      另外,据行业相关分析,AI大模型有望助力工业机器人市场扩容10倍甚至100倍,可见前景之辽阔。

      相信,随着AI大模型逐渐深耕于机器人领域,人形机器人研发技术也将进一步突破。同时,减速器、伺服电机、线性执行器等人形机器人运动控制硬件设备也将迎来新一轮市场。

  • 原文来源:https://www.gkzhan.com/news/detail/158390.html
相关报告
  • 《AI大模型迈向多模态,助力具身智能与机器人实现创新》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:胡思思
    • 发布时间:2024-10-28
    • 你听过莫拉维克悖论 (Moravec's paradox) 吗?该悖论指出,对于人工智能 (AI) 系统而言,高级推理只需非常少的计算能力,而实现人类习以为常的感知运动技能却需要耗费巨大的计算资源。实质上,与人类本能可以完成的基本感官任务相比,复杂的逻辑任务对 AI 而言更加容易。这一悖论凸显了现阶段的 AI 与人类认知能力之间的差异。 人本来就是多模态的。我们每个人就像一个智能终端,通常需要去学校上课接受学识熏陶(训练),但训练与学习的目的和结果是我们有能力自主工作和生活,而不需要总是依赖外部的指令和控制。 我们通过视觉、语言、声音、触觉、味觉和嗅觉等多种感官模式来了解周围的世界,进而审时度势,进行分析、推理、决断并采取行动。 经过多年的传感器融合和 AI 演进,机器人现阶段基本上都配备有多模态传感器。随着我们为机器人等边缘设备带来更多的计算能力,这些设备正变得愈加智能,它们能够感知周围环境,理解并以自然语言进行沟通,通过数字传感界面获得触觉,以及通过加速计、陀螺仪与磁力计等的组合,来感知机器人的比力、角速度,甚至机器人周围的磁场。 迈入机器人和机器认知的新时代 在 Transformer 和大语言模型 (LLM) 出现之前,要在 AI 中实现多模态,通常需要用到多个负责不同类型数据(文本、图像、音频)的单独模型,并通过复杂的过程对不同模态进行集成。 而在 Transformer 模型和 LLM 出现后,多模态变得更加集成化,使得单个模型可以同时处理和理解多种数据类型,从而产生对环境综合感知能力更强大的 AI 系统。这一转变大大提高了多模态 AI 应用的效率和有效性。 虽然 GPT-3 等 LLM 主要以文本为基础,但业界已朝着多模态取得了快速进展。从 OpenAI 的 CLIP 和 DALL·E,到现在的 Sora 和 GPT-4o,都是向多模态和更自然的人机交互迈进的模型范例。例如,CLIP 可理解与自然语言配对的图像,从而在视觉和文本信息之间架起桥梁;DALL·E 旨在根据文本描述生成图像。我们看到 Google Gemini 模型也经历了类似的演进。 2024 年,多模态演进加速发展。今年二月,OpenAI 发布了 Sora,它可以根据文本描述生成逼真或富有想象力的视频。仔细想想,这可以为构建通用世界模拟器提供一条颇有前景的道路,或成为训练机器人的重要工具。三个月后,GPT-4o 显著提高了人机交互的性能,并且能够在音频、视觉和文本之间实时推理。综合利用文本、视觉和音频信息来端到端地训练一个新模型,消除从输入模态到文本,再从文本到输出模态的两次模态转换,进而大幅提升性能。 在今年二月的同一周,谷歌发布了 Gemini 1.5,将上下文长度大幅扩展至 100 万个词元 (Token)。这意味着 1.5 Pro 可以一次性处理大量信息,包括一小时的视频、11 小时的音频、包含超过三万多行代码或 70 万个单词的代码库。Gemini 1.5 基于谷歌对 Transformer 和混合专家架构 (MoE) 的领先研究而构建,并对可在边缘侧部署的 2B 和 7B 模型进行了开源。在五月举行的 Google I/O 大会上,除了将上下文长度增加一倍,并发布一系列生成式 AI 工具和应用,谷歌还探讨了 Project Astra 的未来愿景,这是一款通用的 AI 助手,可以处理多模态信息,理解用户所处的上下文,并在对话中非常自然地与人交互。 作为开源 LLM Llama 背后的公司,Meta 也加入了通用人工智能 (AGI) 的赛道。 这种真正的多模态性大大提高了机器智能水平,将为许多行业带来新的范式。 例如,机器人的用途曾经非常单一,它们具备一些传感器和运动能力,但一般来说,它们没有“大脑”来学习新事物,无法适应非结构化和陌生环境。 多模态 LLM 有望改变机器人的分析、推理和学习能力,使机器人从专用转向通用。PC、服务器和智能手机都是通用计算平台中的佼佼者,它们可以运行许多不同种类的软件应用来实现丰富多彩的功能。通用化将有助于扩大规模,产生规模化的经济效应,价格也能随着规模扩大而大幅降低,进而被更多领域采用,从而形成一个良性循环。 Elon Musk 很早就注意到了通用技术的优势,特斯拉的机器人从 2022 年的 Bumblebee 发展到 2023 年三月宣布的 Optimus Gen 1 和 2023 年年底的 Gen 2,其通用型和学习能力不断提高。在过去的 6 至 12 个月里,我们见证了机器人和人形机器人领域所取得的一系列突破。 下一代机器人和具身智能背后的新技术 毋庸置疑的是我们在具身智能达到量产方面还有很多工作要做。我们需要更轻便的设计、更长的运行时间,以及速度更快、功能更强大的边缘计算平台来处理和融合传感器数据信息,从而做出及时决策和控制行动。 而且我们正朝着创造人形机器人的方向发展,人类文明数千年,产生出无处不在的专为人类设计的环境,而人形机器人系统由于形体与人们类似,有望能够在人类生存的环境中驾轻就熟地与人类和环境互动并执行所需的操作。这些系统将非常适合处理脏污、危险和枯燥的工作,例如患者护理和康复、酒店业的服务工作、教育领域的教具或学伴,以及进行灾难响应和有害物质处理等危险任务。此类应用利用人形机器人类人的属性来促进人机自然交互,在以人为中心的空间中行动,并执行传统机器人通常难以完成的任务。 许多 AI 和机器人企业围绕如何训练机器人在非结构化的新环境中更好地进行推理和规划,展开了新的研究与协作。作为机器人的新“大脑”,预先经过大量数据训练的模型具有出色的泛化能力,使得机器人能做到见怪不怪,更全面地理解环境,根据感官反馈调整动作和行动,在各种动态环境中优化性能。 举一个有趣的例子,Boston Dynamics 的机器狗 Spot 可以在博物馆里当导游。Spot 能够与参观者互动,向他们介绍各种展品,并回答他们的问题。这可能有点难以置信,但在该用例中,比起确保事实正确,Spot 的娱乐性、互动性和细腻微妙的表演更加重要。 Robotics Transformer:机器人的新大脑 Robotics Transformer (RT) 正在快速发展,它可以将多模态输入直接转化为行动编码。在执行曾经见过的任务时,谷歌 DeepMind 的 RT-2 较上一代的 RT-1 表现一样出色,成功率接近 100%。但是,使用 PaLM-E(面向机器人的具身多模态语言模型)和 PaLI-X(大规模多语言视觉和语言模型,并非专为机器人设计)训练后,RT-2 具有更出色的泛化能力,在未曾见过的任务中的表现优于 RT-1。 微软推出了大语言和视觉助手 LLaVA。LLaVA 最初是为基于文本的任务设计的,它利用 GPT-4 的强大功能创建了多模态指令遵循数据的新范式,将文本和视觉组件无缝集成,这对机器人任务非常有用。LLaVA 一经推出,就创下了多模态聊天和科学问答任务的新纪录,已超出人类平均能力。 正如此前提到的,特斯拉进军人形机器人和 AI 通用机器人领域的意义重大,不仅因为它是为实现规模化和量产而设计的,而且因为特斯拉为汽车设计的 Autopilot 的强大完全自动驾驶 (FSD) 技术基础可用于机器人。特斯拉也拥有智能制造用例,可以将 Optimus 应用于其新能源汽车的生产过程。 Arm是未来机器人技术的基石 Arm 认为机器人脑,包括“大脑”和“小脑”,应该是异构AI 计算系统,以提供出色的性能、实时响应和高能效。 机器人技术涉及的任务范围广泛,包括基本的计算(比如向电机发送和接收信号)、先进的数据处理(比如图像和传感器数据解读),以及运行前文提到的多模态 LLM。CPU 非常适合执行通用任务,而 AI 加速器和 GPU 可以更高效地处理并行处理任务,如机器学习 (ML) 和图形处理。还可以集成图像信号处理器和视频编解码器等额外加速器,从而增强机器人的视觉能力和存储/传输效率。此外,CPU 还应该具备实时响应能力,并且需要能够运行 Linux 和 ROS 软件包等操作系统。 当扩展到机器人软件堆栈时,操作系统层可能还需要一个能够可靠处理时间关键型任务的实时操作系统 (RTOS),以及针对机器人定制的 Linux 发行版,如 ROS,它可以提供专为异构计算集群设计的服务。我们相信,SystemReady 和 PSA Certified 等由 Arm 发起的标准和认证计划将帮助扩大机器人软件的开发规模。SystemReady 旨在确保标准的 Rich OS 发行版能够在各类基于 Arm 架构的系统级芯片 (SoC) 上运行,而 PSA Certified 有助于简化安全实现方案,以满足区域安全和监管法规对互联设备的要求。 大型多模态模型和生成式 AI 的进步预示着 AI 机器人和人形机器人的发展进入了新纪元。在这个新时代,要使机器人技术成为主流,除了 AI 计算和生态系统,能效、安全性和功能安全必不可少。Arm 处理器已广泛应用于机器人领域,我们期待与生态系统密切合作,使 Arm 成为未来 AI 机器人的基石。
  • 《人工智能正在加速“拥抱”实体经济 》

    • 来源专题:北京市经济和信息化委员会监测服务平台
    • 编译者:zhangmin
    • 发布时间:2018-09-20
    • 人工智能正在加速与实体经济深层融合。近日举行的“2018人工智能和实体经济深度融合发展论坛”上,为我们揭示了诸多案例。 该论坛公布了“2018年人工智能与实体经济深度融合创新项目申报工作”的评选结果,106个项目在2428个申报项目中脱颖而出。值得注意的是,申报项目中传统行业占比可观。 “在应用类目中,科技企业占比10%,而传统行业高达90%。美的、伊利、上海飞机制造、长江电力、中日友好医院等,在各细分领域都形成了示范性的案例。”工业与信息化部科技司高技术处处长赵策说。 人工智能对于解决传统行业复杂系统、多约束条件下的生产问题展现出了明显优势。 以飞机制造行业为例。8大主要系统、28个关键协调界面、33种关键功能、450万个零件……上海飞机制造有限公司董事长魏应彪在论坛上列出了一系列数字,以说明飞机设计之复杂。大飞机被称为“工业皇冠”。海量的数据、频繁的人机交互、高度复杂的算法软件系统,这些为飞机制造带来了智能制造的场景需求。 什么是智能制造?“智能机器+先进分析工具+人机交互,就是智能制造。”中国工程院院士邬贺铨介绍,“人工智能与云计算、大数据、5G技术一起,成为支撑智能制造的信息技术。” 据魏应彪介绍,上海飞机制造公司正在建设5G园区,部署覆盖整个园区的普及网络,“5G方便设备的互联互通及数据实时采集,为智能制造奠定了大数据的基础。”同时,一批先进智能装备的使用,解放了工人的双手,如自动喷涂机器人、柔性轨制机器人、自动钻铆机器人、激光扫描机器人等。 在此基础上,人工智能发挥作用,利用机器视觉、图像识别、语音交互、大数据分析等技术,实现智慧感知、智慧排产、智慧检测、智慧决策。 以飞机复合材料结构检测为例。“传统的检测过程包括,制造预埋典型缺陷的标准对比版块,扫描复合材料的结构、形成类似X光片的图像和模型,进行人工对比与评判。”魏应彪说,由于版块制作难、成本高,飞机结构复杂,缺陷种类多,图像信号复杂,快速可靠的飞机复合材料结构检测一直是世界性的难题。 人工智能的出现,让事情出现了转机。“我们针对典型缺陷的样本进行海量数据采集,提取关键信息后建立数据库,并运用5G技术存储在云平台上,连接评价系统。建立的深入学习模型可以对缺陷进行检测,并且不断迭代。”魏应彪介绍,目前评判的时间已经由4个小时缩短为几分钟,专业人员的成本降低95%。 事实上,将人工智能技术用于智慧检测后,带来的良品率提升,可给企业带来可观利润。“良品率每提升1%,会增加几个亿的利润。”深圳华星光电技术有限公司董事会秘书张玮说。作为一家面板公司,华星光电采用人工智能对面板海量图片进行快速学习与训练后,建立高精度模型,实现机器自主质检。这一技术配合自动化生产线,从材料投入到成品,整整两周的时间内,都不需要人为干预,“生产效率能提升5%”。 邬贺铨为我们列出了人工智能与实体经济更多的结合点。“传统视觉设备误判率可能高达20%,人会犯重复的错误,但人工智能通过对错误的学习,可将误判率下降到3%以下。” “接下来说说,人工智能技术在优化生产参数中的应用。胶源产地、加工厂、批次数千个复杂因子都会影响橡胶质量,引入人工智能后,混炼胶平均合格率提升3%-5%,年增千万元级的利润。” 虽然实体经济与人工智能的融合已经有了初步的成果,但仍有大量问题需要探索。大量的数据、丰富的应用场景、足够的算力、活跃的用户,这些对于人工智能的使用至关重要,但这些条件对于不少企业来说还有较大差距。 “我们在江浙考察,发现很多传统的实体经济企业,仍处在非常初级的数字化阶段,数据获取能力还比较薄弱,传感器也比较一般。”天堂硅谷行业合伙人许肇元说。 专家还建议,不要盲目追求大数据。“不管有多少数据,距离转化价值还有很多工作要做。数据从采集到录入,需要大量工程的配合。企业一定要核算,要有成本约束。”中国移动通信研究院首席科学家冯俊兰说,企业还要考虑到,人工智能技术的应用会对原有运营体系构成很大冲击。