《生成式人工智能十大趋势与公共文化机构的应对策略》

  • 来源专题:数智化图书情报
  • 编译者: 杨小芳
  • 发布时间:2025-07-01
  • 本文探讨了生成式人工智能(GAI)的十大发展趋势及其对公共文化机构的影响。这些趋势包括AI驱动的科学研究普及、具身智能机器人提升服务体验、多模态大模型走向实用化、合成数据与数据治理挑战凸显、世界模型与因果推理能力突破、AI算力与模型优化协同发展、智能体技术普及带来产品爆发、资本投入与产业整合加速、开源生态与小模型应用扩展以及AI伦理与治理框架完善。公共文化机构应把握AI带来的机遇,提升服务效率与质量,实现智能化转型。

    AI驱动的科学研究普及:大模型与深度学习的发展催生了“人工智能助力科学研究”的新模式。2024年,大型语言模型在多个领域取得重大进展,如OpenAI的o3推理模型和谷歌的Gemini 2.0,以及DeepSeek R1推理模型的问世,降低了模型训练和推理成本,推动了AI4S和AI4DH的普及。图书馆等机构可借助这一趋势优化馆藏管理,构建智能数字档案库。

    具身智能机器人提升服务体验:2024年是人形机器人技术的“应用元年”,特斯拉、波士顿动力公司和优必选等企业在具身智能领域取得重大进展。2025年,特斯拉的Optimus和国内智元机器人的批量生产标志着具身智能技术的重大突破。图书馆可利用具身智能机器人提升工作效率和服务质量。

    多模态大模型走向实用化:2024年,多模态技术持续爆发,视频生成与理解模型迎来“GPT时刻”。如OpenAI的Sora、快手科技的Kling和DeepSeek的Janus-Pro等模型的出现,预示着AI在多模态综合处理能力上的提升。未来,图书馆服务平台可借助多模态大模型实现跨媒体数字化展示。

    合成数据与数据治理挑战凸显:2024年下半年,多个先进模型采用合成数据。合成数据技术可降低对真实数据的依赖,解决数据隐私和版权问题,但也面临数据质量、安全性和合规性等挑战。图书馆等机构需强化数据治理体系,确保数字资源的质量和合规性。

    世界模型与因果推理能力突破:2024年,世界模型成为人工智能领域的焦点议题。世界模型的核心特征包括物理世界建模、因果推理能力和动态场景生成。未来,具备因果推理能力的AI系统将能预测未来动态,解决复杂问题。图书馆可利用世界模型技术辅助空间规划、构建沉浸式虚拟展览等。

    AI算力与模型优化协同发展:在GAI技术的发展中,算力和模型优化呈现出协同发展态势。2024年多项研究发现,单纯扩充数据和增加算力的边际收益下降,未来模型训练将重视数据质量、后训练和强化学习技术的应用。图书馆等机构可结合本地算力配置,依托高性能硬件,支持大规模数据存储和智能检索。

    智能体技术普及带来产品爆发:2025年被视为智能体发展的元年,智能体框架日益繁荣与标准化。未来,机器人流程自动化、个人助理、客户服务和数据分析等领域将基于智能体技术开发新一代应用。图书馆可利用智能体实现自动化客服、智能问答和个性化推荐。

    资本投入与产业整合加速:2024年,AI技术发展显著,多款产品在实际应用场景中取得广泛应用。全球主要科技公司和投资机构加大对AI领域的投入,推动AI产业生态的整合与升级。图书馆应抓住资本投入带来的机遇,与科技公司合作获取技术支持。

    开源生态与小模型应用扩展:开源生态系统降低了AI技术的学习和使用门槛,推动了技术的创新和迭代。2025年初,DeepSeek的开源推动了算力护城河的倒塌,开源生态可望超越Meta成为AI领域的安卓。未来,更多高级AI将转向在个人设备上运行。图书馆等机构可利用开源基座模型训练自己机构的领域模型。

    AI伦理与治理框架完善:随着GAI技术的发展,其潜在风险和不确定性日益受到关注。2024年,联合国、世界卫生组织和中国信息通信研究院等纷纷强调建立AI伦理与治理框架的重要性。图书馆等机构需关注数据安全、隐私保护与版权管理,制定数据使用规范,确保AI服务的公平透明。

  • 原文来源:http://mp.weixin.qq.com/s?__biz=MzIxOTI0NDAwNQ==&mid=2247511163&idx=3&sn=2b544db7299a939b275117d7806d0966&chksm=96cec036773ef12fc8ff4564361f20a0a4934129eb85be9188d212b4d707722fe91ee1db41fd&scene=126&sessionid=1751049684#rd
相关报告
  • 《2025年人工智能十大趋势》

    • 来源专题:数智化图书情报
    • 编译者:程冰
    • 发布时间:2024-10-30
    • 美国《福布斯》日前刊登题为《人人都必须为2025年的十大人工智能趋势做好准备》的文章,作者为未来学家伯纳德·马尔。文章深入剖析了2025年人工智能(AI)的十大趋势,这些趋势不仅预示着技术的不断进步,也反映了人类社会在面对科技变革时的适应与挑战。 趋势一:增强型工作今年,几乎所有主要的软件工具都在匆忙整合生成式人工智能功能。谁都不愿意错过这次上船的机会。2025年,我预计,人类将更多地考虑如何与人工智能携手合作,扩展我们的技术能力,同时腾出时间把我们的创造性和人际交往技能应用到机,器仍然无法管理的工作中这不是简单地把聊天机器人添加到所有领域,而是未来一年智能企业开始利用人工智能创造真正价值的方式。 趋势二:实时自动决策随着企业开始从战略上应对利用人工智能的挑战,那些拥有更加成熟的人工智能战略的企业将走向整个业务流程的端对端自动化。这很可能发生在物流、客户支持和营销领域,算法将在这些领域进行决策,比如如何管理库存和如何以最小的人为干预回应客户问询。这将带来更高的效率和对变化中的客户习惯与市场状况更快的反应速度。 趋势三:“负责任”的人工智能在2025年,人们将日益意识到以一种合平伦理、安全、透明、可靠和尊重知识产权的方式开发和部署人工智能的重要性。虽然这其中有部分将由立法推动(后文有更多涉及),但人们也,越来越意识到不负责任地使用人工智能可能造成的危害。许多人现在意识到人工智能偏见和幻觉的危险,并明白要将这种危险降到最低需要人类协同一致的努力。选择无视这一点或走捷径的企业在2025年可能会被曝光、遭遇监管机构的压力和顾客的抛弃。 趋势四:文生视频与新一代语音助手想象一下:你可以仅仅写出一部电影的主要情节,或是一段视频的一个小片段,然后,整个视频就会在你眼前真实播放出来。想想ChatGPT(聊天生成预训练转换器),只不过生成的是活动的图像。OpenAI公司今年利用其Sora(“天空”)模型展示了这一概念,2025年它可能会开始投入使用。虽然我不认为人们马上能根据提示创作出让迪士尼公司失去收入的电影,但这是令人着迷的一瞥,可以让人看到,在不久的将来人工智能将走向何方,以及它可能具备的能力。 趋势五:人工智能立法和监管更加完善人工智能语音助手(想想Siri或Alexa)多年来已经成为我们生活中的一部分,但传统上他们的对话能力非常有限。今年,OpenAl为ChatGPT展示了一种新的“可中断"的先进语音模式,能够进行与人类对话高度类似的对话。而谷歌已经开始将Gemini (“双子座”"人工智能模型)聊天机器人整合到移动设备中,取代现在已经过时的"Hey Google"功能。我认为,2025年,我们将看到这些能力出现在越来越多的设备中,使之能够进行更自然、更有意义的语音沟通。 趋势六:人工智能体或将流行可以公正地认为,迄今为止,各国政府和立法人员一直在努力应对监管人工智能的挑战。今年,欧盟和中国通过了旨在限制人工智能造成伤害可能性的法律。措施包括将“深度伪造”定为犯罪,对金融、执法等领域应用人工智能进行规范等。2025年,我们可以预期更多规定出台,重点是优先考虑人权,将发生歧视和虚假信息的可能性降至最低。 趋势七:“后真相”世界我们今天看到的大多数人工智能工县都是以执行简单任务为基础,比生成文本或解读数据以作出预测,人工智能体是能够在没有得到精确指令的情况下运作的工县,它们会把无数任务串在一起,并根据所取得的结果调整自己的行为。这可以被视为实现“通用"人工智能的重要一步,它能够完成许多不同类型的任务。然而,这也让人们更加质疑人工智能监管和问责的必要性。 趋势八:人工智能+网络安全2025年,整个社会将面临人工智能带来的假内容和假消息爆发式增长的重大挑战。今年在全球范围内已发生干预选举的尝试。有人说,这意味着我们已经到了一个“后真相"时代,我们不再能够相信自己的眼睛看到的一切。2025年,我预计社会将开始应对这一挑战。这一改变将由各国政府通过立法推动,同时也将在民间通过教育和让人们学会更小心地辨别呈现给他们的信息来推动。在2025年,网络攻击将继续变得越来越频繁和复杂。这意味着,人工智能系统在网络安全威胁造成严重破坏之前发现潜在漏洞、异常情况,以及让网络安全系统自动化等方面将变得更加重要。不过,这并不全是关于看不见的、位于幕后的算法。随着越来越多的威胁以网络钓鱼和社会工程攻击的形式出现,聊天机器人能通过模拟网络钓鱼教会我们如何发现威胁和避免成为受害者。 趋势九:量子人工智能量子计算虽然仍处于起步阶段,但它可能给人工智能带来革命性变化。量子计算利用亚原子水平上的材料表现出的奇特性,以前所未有的速度执行某些计算任务。让算法能够以亿倍于标准计算机的速度运行,不仅仅会让人工智能变得更快,它还可能完成全新的任务,在从疫苗和医药研发到新材料和新能源的生产等领域开辟新的可能性。预计在2025年,这种令人惊叹的潜力给人们带来的兴奋将开始增长! 趋势十:“可持续”的人工智能可持续人工智能包含两个因素。首先,人们越来越清楚地认识到,基于云的人工智能系统需要耗费巨大能源,我认为,我们将在数据中心看到大家齐心协力地转向可持续和可再生能源。其次,旨在提高可持续性、减少其他行业的环境足迹的人工智能应用潜力巨大。利用算法尽量减少农业用水和杀虫剂的使用,到在城市更有效地引导交通出行,以减少汽车排放造成的污染,2025年人工智能将继续让自己成为环境保护的有力工具。
  • 《共生伙伴:2025人工智能十大趋势|2025 WAIC报告重磅发布》

    • 来源专题:宁夏重点产业科技信息服务
    • 编译者:刘 悦
    • 发布时间:2025-09-28
    • 我们曾习惯于将AI视为一个无所不知的“工具箱”。当我们想知道答案,会打开搜索框;当我们想完成任务,会发出一连串精准的指令。它强大、高效,却也总是隔着一块冷冰冰的屏幕,静静地等待着我们的下一个问题。它认识我们输入的文字,却不理解我们输入时的心情。 但现在,这一切正在悄然改变。 想象一下,那个曾经只能理解命令的系统,如今开始听懂你语气中的疲惫。在你深夜加班后,它不再是机械地播报日程,而是用一句温暖的声音提醒你:“看起来你很累了,要不要来点舒缓的音乐,帮你放松一下?”它第一次真正拥有了“五感”,能像我们一样,同时看到视频里人物的表情、听懂他的语调、理解他话语的深意,并作出有温度的回应。这,就是AI正在经历的深刻跃迁。 这场跃迁的核心,是AI的角色正在从“工具”向“伙伴”演进。在工作场景中,不断融入工作流,成为一名高效的“数字员工”。当它走进生活,不仅我们记忆的延伸、灵感的火花、更可能成为一位真正懂你的“人生合伙人”。它了解你的生活习惯,记得你对咖啡的偏好,甚至能从你杂乱无章的语音笔记中,为你整理出一份条理清晰的行动计划。它不再需要你“手把手”地教,而是通过理解你的世界,与你一同成长。 而这,还不是终点。 这位伙伴,正准备走出屏幕,进入我们生活的物理世界。那个曾经只存在于比特世界的“数字大脑”,正长出“手-脚”,成为能在现实世界中行动的“代理人”。它将化身为更灵巧的机器人,在产线上完成超越人类精度的操作;它将融入自动驾驶系统,以近乎全局的视野感知和预测路况;它甚至能成为养老院里那位细心的看护,在老人需要时,稳稳地递上一杯水。AI正从“会聊天”进化到“懂世界”,再到“能行动”。 这不再是遥远的科幻想象,而是正在发生的未来。我们正共同站在一个伟大时代的开端,见证AI从高效的工具,蜕变为与我们协同思考、共同创造的共生伙伴。这篇报告所要描绘的,正是这一演化新篇章的宏伟蓝图。它关乎技术,但更关乎我们每一个人——关乎我们将如何与下一代AI建立信任、展开合作,共同书写一个更富想象力、也更具温度的未来。 今天,在2025世界人工智能大会·腾讯论坛上,腾讯研究院联合腾讯优图实验室、腾讯云智能、腾讯科技联合发布了《共生伙伴:2025人工智能十大趋势》报告。基于腾讯研究院多位研究员对全球技术、产业趋势的长期观察,通过10个关键趋势勾勒出2025人工智能发展的三大主题 基础模型的跃迁、智能行动者的崛起以及AI走向物理世界,深入剖析了AI从“智能工具”迈向“共生伙伴”的关键跃迁。 推荐序 从智能工具到共生伙伴: AI演化的新篇章 司  晓 |  腾讯副总裁 腾讯研究院院长 随着技术的快速演进,基础模型正迎来一场深层次的跃迁。2025 年,大模型的训练重点从“数据+规模”转向“后训练+多模态”。这场变革的核心在于,强化学习开始在大模型后训练中发挥关键作用,并有望赋予模型自我优化与持续进化能力。例如,DeepSeek-R1-Zero通过纯强化学习展现出推理能力,这不仅为DeepSeek R1的训练提供了关键支撑,更全面地将大模型应用推向了推理时代。想象一下,未来在诸多场景下AI都不再需要人类工程师“手把手”教学,而是能像围棋大师AlphaGo那样,通过可验证的奖励信号,在工业机器人路径优化、复杂物流网络调度等领域自主找到最优解,甚至发现超越人类经验的全新策略,从而在未知环境中展现出卓越的适应性。同时,原生多模态生成技术实现了从底层结构上对图像、语音、文本等多模态数据的统一建模,使AI能够在同一上下文中理解和生成跨模态信息。例如,一段视频中人物的表情、语调与语义内容可以被同时感知并融合处理,从而推动了AI从“看懂”、“听懂”到“合成表达”的一体化跃迁。此外,声音模型的突破,为其带来了更加拟人化的语音能力,使其能够跨越语言和文化的障碍,实现全球范围的情感交流。我们不再只是与冷冰冰的机器对话,而是与一个能理解你语气中的疲惫、并用温暖声音回应的智能系统交流,这显著提升了人机交互的自然度和沉浸感,为构建拟人化、实时反应的智能系统奠定了坚实基础。 进入智能行动构建者(Agent)的领域,AI的角色正在发生深刻的变化——从传统的“工具”角色,逐步演变为每个人的“共生伙伴”。端到端Agent模型的崛起进一步推动了智能助手的进化,从单纯的执行任务转向成为更加可信的合作伙伴,能在多个场景下为用户提供更具深度的智能支持。借助大模型的推理与决策能力,这类智能体已能够主动感知用户意图、调度任务和协调资源,实现如行程安排、信息筛选和跨平台事务处理等日常操作的智能自主完成。智能助理将有望从小众工具走向大众应用,实现“人手一个”,进一步提升生活和工作效率。更有甚者,AI有望成为用户生活的个性化操作系统LifeOS。通过对用户日常生活相关的多模态数据(如语音、文本、行为轨迹、健康参数等)的长期整合与理解,构建起一个持续进化的“人生合伙人”。根据用户的习惯、偏好与情绪状态主动提供建议与支持,全面优化工作与生活的体验。 在行业应用方面,垂直行业智能体的出现正推动各个行业的智能化升级。AI不再仅仅提供通用模型或技术接口,而是以智能化工作流的形式深度嵌入医疗、金融、制造、零售和政务等关键行业。通过行业语料训练、场景逻辑建模和工作流集成,这些智能体能够承担风控审查、设备运维和客户服务等具体职能,显著提升业务效率与决策质量,推动从数字化到智能化的关键跃迁。而游戏智能体的沉浸式进化则为虚拟世界带来了全新的体验,AI不仅仅在游戏中扮演角色,更能通过高度自适应的行为与玩家进行深度互动,推动虚拟世界向着更加动态和不可预测的方向演进。 另一方面,智能的应用正在从语言智能走向空间智能。空间智能的兴起意味着AI从处理词元(Token)进化到理解体素(Voxel),初步具备了理解和处理三维世界的核心能力,包括3D环境的感知、推理、交互和生成。这一技术突破让AI能够像预测下一个词元一样去预测下一个体素,并再次基础上实现能力的涌现。空间智能正在重塑自动驾驶、机器人制造、XR混合现实、医疗手术、建筑设计和智慧城市等领域的工作方式,为AI迈向通用人工智能(AGI)补全了关键的物理常识和因果推理能力,推动AI从”会聊天”到真正”懂世界”的跨越式发展。 与此同时,具身智能的崛起,标志着图灵测试正从抽象的语言推理,迈向真实世界的感知—行动协同。AI不仅能“想得明白”,更能“动得精准”。通过与机器人平台、自动驾驶系统、智能穿戴设备等硬件深度整合,AI开始具备类人感知与灵活执行力,在复杂、多变的物理环境中完成导航、操控、交互等任务。从配送机器人在城市街区的自主行动,到养老机器人在特定情境中提供主动服务,具身智能正在重塑人机交互的边界,推动AI从“数字大脑”走向“现实代理人”,深刻改变人类的生活方式与生产模式。 综合来看,2025年强化学习和多模态融合让大模型真正“长出五官”,Agent在工作与生活各个领域的应用,逐步使其成为人类真正的“共生伙伴”,空间智能与具身智能有望让它走出比特世界,进入原子世界。大模型产业将真正跨入“技术-产品-社会”三位一体的深水区,我们不仅将见证效率的飞跃,更将共同探索如何与下一代AI建立更深层次的信任与合作,共同书写人类与AI和谐共存、持续发展的未来篇章。 01 强化学习:引领大模型推理和行动能力新突破 强化学习(Reinforcement Learning, RL)正在大语言模型领域引发一场深刻的范式变革。当前,强化学习在大语言模型中的应用正从最初的人类反馈强化学习(RLHF)——主要旨在使模型输出符合人类偏好——向基于可验证奖励的强化学习(RLVR)大规模演进。RLVR将奖励信号直接绑定到客观、可验证的结果上(例如编程或数学问题的正确答案),从而将优化目标从“听起来正确”转向“确实正确”,显著提升了大模型的核心推理能力。这种转变正推动大模型超越简单的内容生成,向解决实际问题、实现复杂目标的高级智能迈进。 02 原生多模态生成:统一感知与生成的新时代 人工智能的早期发展主要聚焦于单一模态,如计算机视觉专注于图像理解,自然语言处理专注于文本分析。进入深度学习时代,特别是随着Transformer架构的突破性成功,为彻底的多模态整合铺平了道路。这催生了“原生多模态模型”(Natively Multimodal Models),其核心理念在于从架构设计之初就将多种模态(如文本、图像、音频、视频)视为一个统一的输入空间。通过共享或紧密耦合的表示层,模型能够实现跨模态信息的深度交互、对齐与融合。这种“原生”设计让模型能在单一框架内同时完成多模态的联合感知,并基于模态间深度关联的理解进行多模态生成。从 OpenAI 的 GPT-4o 实现文本、图像、音频的无缝交互,到 Sora、Veo3 等模型在视频生成领域的突破,这些标志性成果无不预示着统一感知与生成新时代的全面到来,即将改变多个行业的范式。 03 声音模型广进化:迈向通情达义的情感智能 声音模型正快速迈向具备情感智能的新阶段,成为推动人机交互自然化、个性化的核心技术力量。从早期的机械朗读发展到具备语境理解和情感表达能力的语音合成系统,再到可创作完整音乐作品和驱动视觉内容生成的多模态声音智能,AI声音技术正在实现从“工具”到“伙伴”的跃迁。声音的实时性与情感表达优势,使其在未来的Voice Agent、沉浸式内容创作、教育与医疗辅助等领域具备广阔应用前景。随着模型个性化、低延迟和端侧部署的进步,声音智能将走向更贴近用户、更普惠的交互形态,开启“人人皆可创、处处能互动”的智能新时代。 04 智能体双轨进化:编排类与端到端的分途并进 AI Agent作为人工智能领域的重要发展方向,正经历着从概念验证向生产应用的关键转变。自2023年探索性发展至今,已逐渐分化为两条主要技术路线:编排类Agent(Orchestration-based Agents)和端到端Agent模型(End-to-End Agent Models)。编排类Agent采用”外挂式”架构,将大语言模型作为中央决策器,通过预定义的代码路径编排LLM与外部工具、API的交互,实现复杂任务的分解与执行。端到端Agent模型则采用”内化式”架构,通过强化学习等技术将推理、规划、工具使用等能力直接训练到模型内部,让模型能够动态指导自己的过程和工具使用。以OpenAI的o3、Deep Research等为代表,这一路线仍处于早期阶段,但在特定专业领域已展现出突破性效果。两条路线各有优势和适用场景,将在未来长期并行发展,共同推动AI Agent技术向更加实用和强大的方向演进。 05 LifeOS: AI成为个性化生活的操作系统 随着生成式AI技术的快速成熟,人工智能正从辅助工具逐渐演化为人类生活深处的“共生伙伴”。OpenAI创始人Sam Altman最近提出了一个前瞻性的愿景:“LifeOS”描绘了一个超越传统工具范畴的AI未来。他指出,人们对AI的使用方式正在从偶发性的单一任务转变为持续性的智能交互,AI不再只是回答问题的工具,而是贯穿用户一生、主动提供帮助的智能伴侣。这一愿景预示着AI将更深层次地融入我们的日常生活,成为一个具备终身记忆、个性化推理和主动行动能力的“生活操作系统”。这一趋势背后的技术基础,包括长序列记忆模型、上下文理解引擎和主动决策引擎,正在不断突破和完善。深入理解LifeOS的发展方向,不仅帮助我们洞察下一代人工智能应用的演变轨迹,更将重新定义人与机器的关系,深刻影响未来人类生活与社会运行模式。 06 智力即服务:智能化工作流赋能产业升级 随着AI能力从“算力驱动”迈向“智力驱动”,企业正进入“智力即服务”阶段,Agent逐步成为企业知识系统、流程结构与组织角色的原生组成。在与知识的关系上,企业正从“有知识”走向“能调用”。RAG、数据飞轮和知识结构化机制的演进,使企业知识从“沉默资产”转变为被智能体实时调度的认知系统。在与人的关系上,Agent正从被动工具向数字员工演化。它们开始承担闭环流程、具备权限边界,并成为流程体系中的原生节点。企业不再部署AI功能,而是部署具备行为责任的“数字岗位”。在与流程的关系上,智能化不再依赖单一Agent,而依赖系统性的Agent网络与调度平台。组织开始围绕任务流、感知流与控制流重新编排流程边界,迈向由Agent协作驱动的系统智能时代。 07 游戏智能体:AI在虚拟世界的沉浸式进化 游戏智能体正在重新定义虚拟世界中AI与人类的交互边界。从早期简单的脚本化NPC到如今具备深度学习能力的自主智能体,这一演进不仅体现了技术的飞跃,更预示着虚拟世界正在向着一个充满生命力的数字生态系统转变。当代游戏智能体通过强化学习、大语言模型、多模态感知等前沿技术,已经能够理解复杂的游戏环境、学习玩家行为模式、生成个性化的互动内容,甚至展现出类似人类的情感反应和社交能力。这种沉浸式进化使得AI不再是虚拟世界的配角,而是成为推动游戏叙事、创造涌现式玩法、构建动态社交网络的核心驱动力。随着技术的持续突破,游戏智能体正在为元宇宙时代的到来奠定坚实基础,让虚拟世界真正成为人类生活、工作、娱乐的第二空间。 08 具身智能的“GPT-2时刻”:基础模型、数据工程与软件平台的协同进化 从生成式人工智能特别是GPT展现出的历程来看,具身智能领域正通过规模效应蓄积飞跃动能:2025年极有可能成为具身智能领域的“GPT-2时刻”。以VLA(视觉-语言-动作)多模态大模型突破为代表的诸多进展标志着具身智能从专用场景和单一任务向更通用、更智能、更具自主性的机器智能迈出了关键一步,其影响将进一步激活机器人在人居环境的应用潜能。具体来说:一是强大的端到端多模态基础模型正在被构建,它们将赋能机器人大小脑向更高级认知与执行能力跃升,并展现出一定到泛化性;二是大规模的真实与合成数据正在以前所未有的规模被生成和利用,为模型的训练提供支撑;三是跨模态跨本体的软件平台正在统一开发流程;腾讯、英伟达等互联网公司通过构建机器人模拟和训练平台,加速技术的落地,激活万亿级的上下游生态。 09 空间智能:从看见到理解三维世界 随着AI技术的不断突破,智能的应用正在从语言智能走向空间智能。空间智能的兴起意味着AI从处理词元(Token)进化到理解体素(Voxel),具备了理解和处理三维世界的核心能力,包括3D环境的感知、推理、交互和生成。这一技术突破让AI能够像预测下一句文本一样去预测三维空间并涌现。空间智能正在重塑自动驾驶、机器人制造、XR混合现实、医疗手术、建筑设计、智慧城市等领域的工作方式,为AI走向通用人工智能(AGI)提供关键的物理常识和因果推理能力,推动AI从”会聊天”到真正”懂世界”的跨越式发展。 10 测试转量产,应用推动具身智能本体加速成熟 2025 年 3 月发布的《2025 年国务院政府工作报告》,首次将智能机器人定位为“新一代智能终端和智能制造装备”,其纳入“人工智能+”行动计划。同时《工作报告》还明确提出“培育具身智能等未来产业”,这标志着具身智能已上升至国家战略高度。随着技术突破和应用场景的不断拓展,具身智能本体 – 机器人正从实验室走向产业化,迎来从测试到量产的关键转折点。本专题深入分析具身智能本体发展由“测试”向“量产”的重大转变,其硬件配置、能力提升和产业影响三个维度的最新发展趋势,并探讨其如何在应用驱动下加速走向成熟。