《AI芯片可用电场而非电流执行计算》

  • 来源专题:能源情报网信息监测服务平台
  • 编译者: guokm
  • 发布时间:2024-02-05
  • 科技日报北京2月3日电 (记者张梦然)运行生成式人工智能(AI)系统不仅硬件成本高昂,而且会带来惊人的能源消耗。据科技网站TechCrunch最新报道,总部位于德国的初创公司塞姆龙最新开发出一种创新的AI芯片设计方法,率先使用新的神经网络控制设备——忆容器为其3D芯片供电。这有可能彻底改变节能计算技术,使消费电子设备更容易获得先进的AI功能。

    不同于处理器中的晶体管,塞姆龙的芯片使用电场而不是电流。这些由传统半导体材料制成的忆容器可存储能量并控制电场,不仅提高了能源效率,还降低了制造成本,使消费电子产品更容易运行先进的AI模型。

    塞姆龙芯片是一种多层组织结构,核心原理是电荷屏蔽,通过屏蔽层控制顶部电极和底部电极之间的电场。屏蔽层由芯片内存管理,可存储AI模型的各种“权重”。权重本质上就像模型中的旋钮,在训练和处理数据时操纵和微调其性能。

    电场方法最大限度地减少了电子在芯片中的运动,减少了能源使用和热量。塞姆龙旨在利用电场的降温特性,在单个芯片上放置数百层电容器,从而大大提高计算能力。

    在《自然·电子学》杂志最近发表的一项研究中,塞姆龙芯片展示出显著的能效提升,其实现了超过3500TOPS/W(每瓦每秒万亿次运算)的卓越能效,超越现有技术35倍至300倍。这一指标表明AI模型训练期间能源消耗将可大幅减少。

    尽管还处于早期阶段,但塞姆龙已吸引了著名风投公司的关注,这或对计算资源的未来产生重大影响。

    我们在使用电子设备时经常出现“充电焦虑”。这一方面与电池续航不足有关;另一方面也与芯片的能耗较高有关。如今,普通硅基芯片在计算性能、能耗等方面遭遇摩尔定律“天花板”。随着新一代电子产品及各种人工智能设备的不断更新迭代,目前亟待研发出采用新材料、新设计方式的芯片,为消费者提供计算性能更强大、同时更加节能的电子产品。

  • 原文来源:http://www.cnenergynews.cn/kejizhuangbei/2024/02/05/detail_20240205146849.html
相关报告
  • 《科技巨头抢占AI市场,智能芯片给生活带来怎样变化》

    • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
    • 编译者:冯瑞华
    • 发布时间:2017-12-25
    • 科技行业的巨头们看似已经完全接受了人工智能革命。苹果、高通和华为已经制造了一种移动芯片,而这些芯片的设计目的是提供机器学习一个更好的平台,而不同公司设计这种芯片都采用了略微不同的方式。华为在今年的IFA上发布了Kirin 970,他们称其为第一款带有专用神经单元处理器(NPU)的芯片组。然后,苹果发布了A11仿生智能芯片,该芯片为iPhone8、8Plus和x提供引擎动力。A11仿生芯片的特点是,它的神经引擎处理器是专门为机器学习而设计的。 上周,高通发布了骁龙845,该芯片能够将人工智能任务发送至最合适处理器的核心系统。这三家公司的设计方法并没有太大的区别——最终归结为每种芯片向开发者提供的访问权限,以及每一种设置所消耗的电量。 在我们讨论这个问题之前,我们先来弄清楚一个人工智能芯片跟现有的cpu有怎样的不同。在业界,你会经常听到叫“异构计算”的有关人工智能的术语。它指的是使用多种处理器的系统,并且每一种处理器都有专门的功能,以获得更高的性能及节省能源。这个术语并不新鲜,而且许多现有的芯片组都使用了它——例如这三款新产品在不同程度上采用了这个概念。 过去三年来,智能手机的cpu使用了ARM的big.LITTLE架构,它能够将相对较慢的节能核心与速度更快、能耗更低的核心结合起来。我们的主要目标是让这款芯片尽可能少占用电能,以获得更好的电池续航时间。首批采用这种架构的手机包括三星Galaxy S4,它只入了其公司自主生产的Exynos5芯片,以及华为的Mate8和荣誉6。 今年的“人工智能芯片”让这一概念更进一步,它通过添加一个新的专用组件来执行机器学习任务,或者可以使用其他低功耗内核来执行机器学习任务。例如,骁龙845可以利用它的数字信号处理器(DSP)来处理需要大量重复计算的长时间运行的任务,比如在一段长对话里通过分析找到一个用户需要的热词。高通的产品管理总监加里布洛特曼告诉Engadget,在另一方面,像图像识别这样的需求可以通过GPU更好地管理,布罗特曼专门负责为骁龙智能平台开发人工智能和机器学习技术。 与此同时,苹果的A11仿生学应用在其GPU上添加了一个神经引擎,以加速人脸识别、动话表情反馈和一些第三方应用的使用。这意味着,当你在iPhoneX上启动这些进程时,A11会打开神经引擎进行计算来验证用户的身份,或者把你的面部表情倒入到“会说话的便便”这款应用中。 在Kirin 970芯片中,NPU会处理一些任务,比如扫描和利用微软翻译来翻译图片里的文字。这是迄今为止唯一针对这款芯片进行优化的第三方应用。华为表示,其“HiAI”异构计算结构将其芯片组的大部分组件的性能最大化,因此它可能会将人工智能任务分配给更多,而不仅仅是NPU。 抛开这些差异不说,这种新的架构意味着过去只能在云端处理机器学习计算,现在可以在设备本体上更高效地运行。通过使用非CPU的部分来运行人工智能任务,用户的手机可以在同一时间处理更多的事情,这样你在等待应用为你翻译或例如寻找宠物狗的图片时就不会遇到延迟的烦恼。 此外,在手机上运行这些程序不用将用户的使用数据发送到云端,这对用户隐私也有了更强的保护,因为这样可以减少黑客获取数据的机会。 这些人工智能芯片的另一大优势是节约能源。因为有些工作是重复的,我们手机电池消耗量需要针对这些重复的进程进行更合理地分配。GPU往往会吸收更多的能量,所以如果取而代之的是更节能的DSP,并且它可以实现与GPU类似的效果,那么最好是选择后者。 需要明确的是,在决定执行某些任务时,芯片本身并不决定使用哪个核心系统作为驱动。“在今天,开发者们和oem厂商都想要运行人工智能芯片,”Brotman说。程序员可以使用像Google的TensorFlow这样的支持数据库(或者更确切地说是它的Lite移动版本)来选择运行他们的模型的核心。高通、华为和苹果都采用了TensorFlow Lite和Facebook的Caffe2等最受欢迎的选项作为他们设计的支持程序。高通也支持新的开放神经网络交换(ONNX)系统,而苹果则通过其核心的ML框架为更多机器学习模式添加了兼容性。 到目前为止,这些芯片都没有在现实世界中带来明显的影响。芯片制造商们将会吹捧他们自己的测试结果和基准,但这些测试结果直到人工智能程序成为我们日常生活中重要的一部分之前都毫无意义。因为我们正处于让设备进行机器学习的发展早期阶段,并且使用新硬件的开发者少之又少。 不过现在很明显的是,竞争已经开始了,竞争者们着重研究如何让机器学习相关的任务在用户设备上运行地更快、更省电。我们只需要等待一段时间,就能看到从传统芯片到人工智能芯片的转变带给我们生活上的帮助。
  • 《美国IBM公司开发出新型类脑AI芯片》

    • 来源专题:集成电路
    • 编译者:李衍
    • 发布时间:2023-09-22
    • 我们正处于人工智能革命的开端,这场革命将重新定义人类的生活和工作方式。特别是,深度神经网络 (DNN) 彻底改变了人工智能领域,并随着基础模型和生成式人工智能的出现而日益受到重视。但在传统数字计算架构上运行这些模型限制了它们可实现的性能和能源效率。专门用于人工智能推理的硬件开发已经取得了进展,但其中许多架构在物理上分割了内存和处理单元。这意味着人工智能模型通常存储在离散的内存位置,计算任务需要在内存和处理单元之间不断地整理数据。此过程会减慢计算速度并限制可实现的最大能源效率。 IBM 研究中心一直在研究重塑人工智能计算方式的方法。模拟内存计算,或者简称模拟人工智能,是一种很有前途的方法,可以借用神经网络在生物大脑中运行的关键特征来应对这一挑战。在我们的大脑以及许多其他动物的大脑中,突触的强度(或称“权重”)决定了神经元之间的通信。对于模拟人工智能系统,研究人员将这些突触权重本地存储在纳米级电阻存储设备的电导值中,例如相变存储器(PCM) 并通过利用电路定律并减少在内存和处理器之间不断发送数据的需要来执行乘法累加 (MAC) 操作,这是 DNN 中的主要计算操作。对于模拟人工智能处理,IBM表示需要克服两个关键挑战:这些存储器阵列需要以与现有数字系统相当的精度进行计算,并且它们需要能够与数字计算单元以及数字通信结构无缝连接。 据TechXplore网8月22日消息,美国IBM公司又开发出一种新型类脑AI芯片,基于相变存储器的用于深度神经网络推理的 64 位混合信号内存计算芯片。这种新型混合信号芯片的工作方式与大脑中突触相互作用的方式类似,具有64个模拟内存核心,每个核心都托管一组突触细胞单元。同时,该芯片还具有一个转换器,确保模拟和数字信号之间的平滑转换。据IBM公司称,新型芯片在CIFAR-10数据集的测试中实现了92.81%的准确率。该芯片具有较高的能效比,能效可达传统数字计算机芯片的14倍,可大幅降低AI计算的功耗,未来有望满足低能耗、高算力的场景需求。 面对传统通用处理器(包含图形处理器、中央处理器等)效能低下的问题,IBM研究团队提出“模拟内存计算”的方案,通过在自身的存储器上并行执行矩阵-向量乘法,以提供更强的能效。IBM的研究团队基于该方案开发出了一个 14nm 模拟芯片,利用34个大型相变存储器(PCM)阵列,结合了数模转换输入、模拟外围电路、模数转换输出和大规模并行二维网格路由。每个14nm芯片上可编码3500万个PCM,在每权重对应2-PCMs的方案中,可容纳1700万个参数。将这些芯片组合在一起,便能够像数字芯片一样有效地处理真实AI用例的实验。该芯片是在 IBM 的 Albany NanoTech Complex 中制造的,由 64 个模拟内存计算核心(或块)组成,每个核心包含 256×256 的突触单元格交叉阵列。使用该芯片,IBM对模拟内存计算的计算精度进行了最全面的研究,并在CIFAR-10图像数据集上证明了 92.81% 的准确率,是目前报道的使用类似技术的芯片中精度最高的。8位输入输出矩阵向量乘法密度为400Gop/s/mm,峰值达到63Top/s和9.76Top/W,功耗比之前基于电阻式存储器的多核内存计算芯片高出 15 倍以上,同时实现了可比的能源效率。 相关成果以题名“A 64-core mixed-signal in-memory compute chip based on phase-change memory for deep neural network inference”于8月10日在线发表于《自然-电子》(Nature Electronics)期刊。 参考链接:https://www.163.com/dy/article/IDDS0R940511838M.html https://caifuhao.eastmoney.com/news/20230812113147087316760 https://xueqiu.com/9919963656/149699780 论文链接:https://www.nature.com/articles/s41928-023-01010-1