《多模态数据驱动的安全态势感知框架构建》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2024-12-26
  • 从多模态数据驱动的视角出发,厘清多模态数据与安全态势感知的内涵,构建多模态数据驱动的安全态势感知框架,旨在及时准确对网络数据安全威胁进行态势感知、态势理解、态势预测以及决策处置,并依据科学决策精准施策。以安全情报理论与WSR系统方法论为理论依据,结合大量文献调研,按照“物理—事理—人理”的逻辑层次构建多模态数据驱动的安全态势感知框架。框架从物理层面信息技术与硬件设施出发,着重探讨事理层面态势危机察觉、态势要素提取、态势理解以及态势预测之多模态数据驱动的态势感知过程与机制,最终落脚于人理层面的多模态数据态势感知协同治理机制健全与态势感知智能决策赋能科学应用。
  • 原文来源:https://doi.org/10.13266/j.issn.0252-3116.2024.24.001
相关报告
  • 《数据与知识双驱动的知识组织系统构建框架研究》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-07-11
    •        知识组织系统(KOS)反映领域知识的概念及概念关系,是描述、表示特定领域的知识而生成的语义工具,涵盖了从简单的术语表到包含语义关系的规范档、受控词表、本体等。 知识组织系统的构建方式与计算机技术的发展相呼应。早期知识组织系统的构建主要依赖于专家先验知识,具有严格受控、权威性、全局性等优势。但纯粹依赖专家构建的知识组织系 统具有不可忽视的缺陷:一是主观性强,多依赖于专家先验知识,缺乏对终端用户需求的客观反映;二是实时性不强,知识组织系统构建后处于封闭静止状态,其无法通过自主学习进 行知识动态更新,术语经过长期实践积累达到一定规模后,才会由专家进一步更新,因此知识组织系统的概念更新缓慢,具有滞后性;三是成本较高,严格受控的概念选取及层次结构 建设使手工构建知识组织系统耗时耗力。大数据环境下实时更新的数据资源有待挖掘以提供各种智能化决策,其为知识组织系统提供了丰富的语料,自动构建知识组织系统成为可能, 通过对多源海量数据的自动采集、加工、处理、分析、整合和提炼,抽象形成具有一定结构的概念知识体系,但自动构建的方式依然有一定的局限性:一是机器语义理解差,从海量数 据中挖掘其结构,生成达到一定语义规范的概念存在困难;二是知识组织系统具有严格受控的多层次结构,机器学习技术仍难以自动化识别概念之间的丰富语义关系,建立语义关联且 形成符合用户需求的概念层级结构仍需人工干预;三是对数据质量要求高,自动化构建的知识组织系统高度依赖于所采集的涵盖主题领域的数据样本,数据的质量决定了最终形成概念 体系的质量。当前数据与知识相结合的第三代人工智能的出现,旨在将专家知识与海量数据有机结合,提升数据处理效率和质量。 如何借此契机,探索知识组织系统新的构建方式将成为当前知识组织领域的重要问题。         文章在分析国内外研究现状的基础上,从理论层面深度剖析数据和知识的协同机制,应用符 号学理论分析“数据”与“知识”之间的双向转换关系,并从知识组织系统的语法、语义、 语用角度,提出数据与知识双驱动的知识组织系统构建框架,有助于厘清数据与知识的双向转化,突破现有知识组织系统构建方法存在的局限,实现两种构建方法的深度融合及优势互 补,为数智时代自动构建高质量、高效率的知识组织系统提供新的路径。       知识分为隐性和显性两种类型。隐性知识是通过经验、行动、主观的洞察力等嵌入人类头脑中,难以正式表达、沟通或分享的知识;显式知识是可以正式表达、共享、复制、存储 的知识,更具有实用价值。知识管理中这两类知识通过相互转换而实现价值,但转换过程离不开数据支持。海量数据中蕴含着有待被挖掘的一定量的显隐性知识,经过分析、加工、 提炼等形成可表达的显性知识,服务于具体应用场景,进而产生新的数据,如此不断反复。如何从海量“数据”中获取、提炼、转换为有用的“知识”,“知识”又如何物化成可计算 的“数据”是实现数据与知识两者有效转换的关键。数据到知识的转化过程一直都是信息管理、信息系统、计算机领域等多个学科或领域关 注的热点话题。数据本身是观察的产物,存在于人类的思维之外,没有任何意义,定义为 表示对象、事件及环境的属性的符号。美国哲学家皮尔斯(Pierce)的符号学理论指出符 号由三个相互关联的基本要素组成:符号形体(Representamen)、对象(Object)和解释 项(Interpretant),其中符号形体可视为一种指代,对象是由符号所指的客观存在,解释项是人对符号与物体之间联系的理解和反应。由此看出,当认知主体对客观物理世界 进行感知时,从而为客观对象赋予了能够表征它的符号,即形成了多样化数据。而符号的含 义则是由主体所认知的知识来反映,此时知识成为提供符号意义的解释项,体现了对客观世界的理解和反映,使人们能够共享符号及符号语义以实现无障碍交流。知识由认知主体对客 观世界中数据(符号)的理解和反映而形成,通过对数据一系列组织和处理分析,形成对当前问题或活动的解释、理解及经验。数据密集型社会带来了数据量的激增,借助于统计学、 机器学习等技术,对海量数据进行提炼总结形成知识,数据到知识的转换效率提升。 知识向数据的转化是一个反向过程,当知识被语法、语义等结构描述后成为信息,信息被详细定义的数据结构规范后成为数据。数据是可被计算的符号,知识为数据符号提供 了语义解释。知识转化为数据就是将知识描述为可被计算的形式化结构,应用到数据处理环节中,以提升数据处理的效率。不断增加的知识同样面临序化表示的问题,知识组织系统作 为重要的工具,以知识为主要描述对象,对知识进行表示、描述、共享和使用,从而为符号所表达的语义意义提供明确的概念共识。正如 Qin Jian指出,知识组织系统实际上是将 人类对世界理解所形成的知识组织成各种系统或工具,以推动知识的再利用与创造。知识向数据转化过程需要各种知识组织系统的参与,通过对知识进行显性化、表示和存储,以更好 用以解释数据含义。 数据与知识的双向转化形成了一个联动的持续循环过程。依据波普尔“三 个世界”理论,上层表示物理世界,指代一切物质客体;中层表示精神世界;下层表示客观知识世界,凸显认知主体对客观世界中实体对象的感知和反映。物理世界产生了大规模的 实体对象,催生了用于指代实体对象的海量数据。数据作为认知主体给予对象的识别符号,数据的激增促进了认知主体对新的解释项的产生和扩充,进一步提升了对知识本身处理的需 求,推动知识组织系统的不断发展及应用。从海量数据中获取知识,以知识组织系统方式表示,并将知识组织系统应用到数据处理中,这样不仅推动数据与知识转换及增值,而且能够 动态反映外部客观世界变化,实现数据与知识从静态化向动态化管理。
  • 《AI大模型迈向多模态,助力具身智能与机器人实现创新》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:胡思思
    • 发布时间:2024-10-28
    • 你听过莫拉维克悖论 (Moravec's paradox) 吗?该悖论指出,对于人工智能 (AI) 系统而言,高级推理只需非常少的计算能力,而实现人类习以为常的感知运动技能却需要耗费巨大的计算资源。实质上,与人类本能可以完成的基本感官任务相比,复杂的逻辑任务对 AI 而言更加容易。这一悖论凸显了现阶段的 AI 与人类认知能力之间的差异。 人本来就是多模态的。我们每个人就像一个智能终端,通常需要去学校上课接受学识熏陶(训练),但训练与学习的目的和结果是我们有能力自主工作和生活,而不需要总是依赖外部的指令和控制。 我们通过视觉、语言、声音、触觉、味觉和嗅觉等多种感官模式来了解周围的世界,进而审时度势,进行分析、推理、决断并采取行动。 经过多年的传感器融合和 AI 演进,机器人现阶段基本上都配备有多模态传感器。随着我们为机器人等边缘设备带来更多的计算能力,这些设备正变得愈加智能,它们能够感知周围环境,理解并以自然语言进行沟通,通过数字传感界面获得触觉,以及通过加速计、陀螺仪与磁力计等的组合,来感知机器人的比力、角速度,甚至机器人周围的磁场。 迈入机器人和机器认知的新时代 在 Transformer 和大语言模型 (LLM) 出现之前,要在 AI 中实现多模态,通常需要用到多个负责不同类型数据(文本、图像、音频)的单独模型,并通过复杂的过程对不同模态进行集成。 而在 Transformer 模型和 LLM 出现后,多模态变得更加集成化,使得单个模型可以同时处理和理解多种数据类型,从而产生对环境综合感知能力更强大的 AI 系统。这一转变大大提高了多模态 AI 应用的效率和有效性。 虽然 GPT-3 等 LLM 主要以文本为基础,但业界已朝着多模态取得了快速进展。从 OpenAI 的 CLIP 和 DALL·E,到现在的 Sora 和 GPT-4o,都是向多模态和更自然的人机交互迈进的模型范例。例如,CLIP 可理解与自然语言配对的图像,从而在视觉和文本信息之间架起桥梁;DALL·E 旨在根据文本描述生成图像。我们看到 Google Gemini 模型也经历了类似的演进。 2024 年,多模态演进加速发展。今年二月,OpenAI 发布了 Sora,它可以根据文本描述生成逼真或富有想象力的视频。仔细想想,这可以为构建通用世界模拟器提供一条颇有前景的道路,或成为训练机器人的重要工具。三个月后,GPT-4o 显著提高了人机交互的性能,并且能够在音频、视觉和文本之间实时推理。综合利用文本、视觉和音频信息来端到端地训练一个新模型,消除从输入模态到文本,再从文本到输出模态的两次模态转换,进而大幅提升性能。 在今年二月的同一周,谷歌发布了 Gemini 1.5,将上下文长度大幅扩展至 100 万个词元 (Token)。这意味着 1.5 Pro 可以一次性处理大量信息,包括一小时的视频、11 小时的音频、包含超过三万多行代码或 70 万个单词的代码库。Gemini 1.5 基于谷歌对 Transformer 和混合专家架构 (MoE) 的领先研究而构建,并对可在边缘侧部署的 2B 和 7B 模型进行了开源。在五月举行的 Google I/O 大会上,除了将上下文长度增加一倍,并发布一系列生成式 AI 工具和应用,谷歌还探讨了 Project Astra 的未来愿景,这是一款通用的 AI 助手,可以处理多模态信息,理解用户所处的上下文,并在对话中非常自然地与人交互。 作为开源 LLM Llama 背后的公司,Meta 也加入了通用人工智能 (AGI) 的赛道。 这种真正的多模态性大大提高了机器智能水平,将为许多行业带来新的范式。 例如,机器人的用途曾经非常单一,它们具备一些传感器和运动能力,但一般来说,它们没有“大脑”来学习新事物,无法适应非结构化和陌生环境。 多模态 LLM 有望改变机器人的分析、推理和学习能力,使机器人从专用转向通用。PC、服务器和智能手机都是通用计算平台中的佼佼者,它们可以运行许多不同种类的软件应用来实现丰富多彩的功能。通用化将有助于扩大规模,产生规模化的经济效应,价格也能随着规模扩大而大幅降低,进而被更多领域采用,从而形成一个良性循环。 Elon Musk 很早就注意到了通用技术的优势,特斯拉的机器人从 2022 年的 Bumblebee 发展到 2023 年三月宣布的 Optimus Gen 1 和 2023 年年底的 Gen 2,其通用型和学习能力不断提高。在过去的 6 至 12 个月里,我们见证了机器人和人形机器人领域所取得的一系列突破。 下一代机器人和具身智能背后的新技术 毋庸置疑的是我们在具身智能达到量产方面还有很多工作要做。我们需要更轻便的设计、更长的运行时间,以及速度更快、功能更强大的边缘计算平台来处理和融合传感器数据信息,从而做出及时决策和控制行动。 而且我们正朝着创造人形机器人的方向发展,人类文明数千年,产生出无处不在的专为人类设计的环境,而人形机器人系统由于形体与人们类似,有望能够在人类生存的环境中驾轻就熟地与人类和环境互动并执行所需的操作。这些系统将非常适合处理脏污、危险和枯燥的工作,例如患者护理和康复、酒店业的服务工作、教育领域的教具或学伴,以及进行灾难响应和有害物质处理等危险任务。此类应用利用人形机器人类人的属性来促进人机自然交互,在以人为中心的空间中行动,并执行传统机器人通常难以完成的任务。 许多 AI 和机器人企业围绕如何训练机器人在非结构化的新环境中更好地进行推理和规划,展开了新的研究与协作。作为机器人的新“大脑”,预先经过大量数据训练的模型具有出色的泛化能力,使得机器人能做到见怪不怪,更全面地理解环境,根据感官反馈调整动作和行动,在各种动态环境中优化性能。 举一个有趣的例子,Boston Dynamics 的机器狗 Spot 可以在博物馆里当导游。Spot 能够与参观者互动,向他们介绍各种展品,并回答他们的问题。这可能有点难以置信,但在该用例中,比起确保事实正确,Spot 的娱乐性、互动性和细腻微妙的表演更加重要。 Robotics Transformer:机器人的新大脑 Robotics Transformer (RT) 正在快速发展,它可以将多模态输入直接转化为行动编码。在执行曾经见过的任务时,谷歌 DeepMind 的 RT-2 较上一代的 RT-1 表现一样出色,成功率接近 100%。但是,使用 PaLM-E(面向机器人的具身多模态语言模型)和 PaLI-X(大规模多语言视觉和语言模型,并非专为机器人设计)训练后,RT-2 具有更出色的泛化能力,在未曾见过的任务中的表现优于 RT-1。 微软推出了大语言和视觉助手 LLaVA。LLaVA 最初是为基于文本的任务设计的,它利用 GPT-4 的强大功能创建了多模态指令遵循数据的新范式,将文本和视觉组件无缝集成,这对机器人任务非常有用。LLaVA 一经推出,就创下了多模态聊天和科学问答任务的新纪录,已超出人类平均能力。 正如此前提到的,特斯拉进军人形机器人和 AI 通用机器人领域的意义重大,不仅因为它是为实现规模化和量产而设计的,而且因为特斯拉为汽车设计的 Autopilot 的强大完全自动驾驶 (FSD) 技术基础可用于机器人。特斯拉也拥有智能制造用例,可以将 Optimus 应用于其新能源汽车的生产过程。 Arm是未来机器人技术的基石 Arm 认为机器人脑,包括“大脑”和“小脑”,应该是异构AI 计算系统,以提供出色的性能、实时响应和高能效。 机器人技术涉及的任务范围广泛,包括基本的计算(比如向电机发送和接收信号)、先进的数据处理(比如图像和传感器数据解读),以及运行前文提到的多模态 LLM。CPU 非常适合执行通用任务,而 AI 加速器和 GPU 可以更高效地处理并行处理任务,如机器学习 (ML) 和图形处理。还可以集成图像信号处理器和视频编解码器等额外加速器,从而增强机器人的视觉能力和存储/传输效率。此外,CPU 还应该具备实时响应能力,并且需要能够运行 Linux 和 ROS 软件包等操作系统。 当扩展到机器人软件堆栈时,操作系统层可能还需要一个能够可靠处理时间关键型任务的实时操作系统 (RTOS),以及针对机器人定制的 Linux 发行版,如 ROS,它可以提供专为异构计算集群设计的服务。我们相信,SystemReady 和 PSA Certified 等由 Arm 发起的标准和认证计划将帮助扩大机器人软件的开发规模。SystemReady 旨在确保标准的 Rich OS 发行版能够在各类基于 Arm 架构的系统级芯片 (SoC) 上运行,而 PSA Certified 有助于简化安全实现方案,以满足区域安全和监管法规对互联设备的要求。 大型多模态模型和生成式 AI 的进步预示着 AI 机器人和人形机器人的发展进入了新纪元。在这个新时代,要使机器人技术成为主流,除了 AI 计算和生态系统,能效、安全性和功能安全必不可少。Arm 处理器已广泛应用于机器人领域,我们期待与生态系统密切合作,使 Arm 成为未来 AI 机器人的基石。