《让AI个性化而且功耗更低 IBM研发新型神经网络芯片》

  • 来源专题:集成电路设计
  • 编译者: shenxiang
  • 发布时间:2018-06-21
  • 在GPU上运行的神经网络已经在人工智能领域取得了一些惊人的进步,但这两者的合作还并不完美。IBM的研究人员希望能设计出一种专门用于运行神经网络的新的芯片,从而提供更快、更有效的替代方案。

    直到本世纪初,研究人员才意识到,为视频游戏设计的GPU(图形处理单元)可以被用作硬件加速器,以运行比以前更大的神经网络。

    这要归功于这些芯片能够并行进行大量计算,而不是像传统CPU那样按顺序处理它们。这对于同时计算构成深度学习神经网络的数百个神经元的权重特别有用。

    GPU的引入使这一领域得到了发展,但这些芯片仍然需要将处理和存储分开,这意味着大量的时间和精力都花在了两者之间的数据传输上。这促使人们开始研究新的存储技术,这些技术能够存储和处理同一位置的权重数据,从而提高速度和能源效率。

    这种新的存储设备通过调整它们的电阻水平,以模拟的形式存储数据——也就是说,数据被存储在一个连续的范围内,而不是数字存储器的二进制1和0。因为信息存储在存储单元的电导中,所以可以简单地在存储单元间传递电压并让系统通过物理方法来进行计算。

    但是这些设备固有的物理缺陷意味着它们的行为并不一致,这导致了目前使用它们来训练神经网络的分类精度明显低于使用GPU。

    “我们可以在一个比GPU更快的系统上进行训练,但如果训练操作不那么准确,那是没有用的,”领导该项目的IBM Research博士后研究员Stefano Ambrogio在接受Singularity Hub采访时说,“到目前为止,还没有证据表明使用这些新设备能像使用GPU一样精确。”

    但研究又有了新的进展。在上周发表在《自然》杂志上的一篇论文中,Ambrogio和他的同事们描述了他们是如何利用新兴的模拟记忆和更传统的电子元件组合来创造出一种芯片,这种芯片可以与GPU的精度相匹配,同时运行速度更快,能耗更少。

    这些新的存储技术难以训练深层神经网络的原因是,这个过程需要将每个神经元的权重进行上下数千次的刺激,直到网络完全对齐。改变这些设备的电阻需要重新配置它们的原子结构,而且每次的操作过程都不一样,Ambrogio说。这些刺激并不总是完全相同,这导致了对神经元权重的不精确的调整。

    研究人员通过创造“突触单元”来解决这个问题,这些“突触单元”每一个都对应于网络中的单个神经元,同时具有长期和短期记忆。每个单元格由一对相变存储器(PCM)单元和三个晶体管以及一个电容的组合构成,PCM在电阻中存储权重数据,电容将权重数据存储为电荷。

    PCM是一种“非易失性存储器”,这意味着即使没有外部电源,它也能保留存储的信息,而电容器是“易失性的”,所以只能在几毫秒内保持它的电荷。但是电容器没有PCM设备的可变性,因此可以快速而准确地编程。

    当神经网络对图像进行训练以完成分类任务时,只有电容器的权重会被更新。在浏览到几千张图片后,权重数据会被转移到PCM单元进行长期存储。PCM的可变性意味着,权重数据的转移仍然有可能包含错误,但是由于该单元只是偶尔更新,所以可以在不增加系统复杂性的情况下再次检查电导。Ambrogio说,如果直接在PCM单元上进行训练,这就不可行了。

    为了测试他们的设备,研究人员对他们的网络进行了一系列流行图像识别的基准测试,结果达到了与谷歌领先的神经网络软件TensorFlow相当的精确度。但重要的是,他们预测,最终构建出的芯片将比GPU的能效高280倍,而且在每平方毫米面积上实现的算力将达到CPU的100倍。值得注意的是,研究人员还没有完全构建出这一芯片。

    虽然在测试中使用了真正的PCM单元,但其它组件是在计算机上模拟的。Ambrogio表示,他们希望在投入时间和精力打造完整的芯片之前,先检查一下这种方法是否可行。他说,他们决定使用真正的PCM设备,因为对这些设备的模拟还不太可靠,但其它组件的模拟技术已经很成熟了,他们有信心基于这个设计建立一个完整的芯片。

    它目前也只能在全连接神经网络上与GPU竞争,在这个神经网络中,每个神经元都与上一层的神经元相连接,Ambrogio说。但实际上许多神经网络并没有完全连接,或者只有某些层完全连接在一起。

    但Ambrogio说,最终的芯片将被设计成可以与GPU合作的形式,从而在处理其它连接时也能够处理全连接层的计算。他还认为,这种处理全连接层的更有效的方法可以被更广泛地应用。

    这样的专用芯片能够使哪些事情成为可能?

    Ambrogio说,有两个主要的应用:一是将人工智能应用到个人设备上,二是使数据中心更加高效。后者是大型科技公司的一大担忧,因为它们的服务器消耗了大量的电费。

    如果直接在个人设备上应用人工智能,用户就可以不必在云端分享他们的数据,从而增加隐私性,但Ambrogio说,更令人兴奋的前景是人工智能的个性化。

    他说:“在你的汽车或智能手机上应用这个神经网络,它们就能够不断地从你的经验中学习。”

    “你的手机会专门针对你的声音进行个性化,你的汽车也会根据你的习惯形成独特的驾驶方式。”

相关报告
  • 《美国IBM公司开发出新型类脑AI芯片》

    • 来源专题:集成电路
    • 编译者:李衍
    • 发布时间:2023-09-22
    • 我们正处于人工智能革命的开端,这场革命将重新定义人类的生活和工作方式。特别是,深度神经网络 (DNN) 彻底改变了人工智能领域,并随着基础模型和生成式人工智能的出现而日益受到重视。但在传统数字计算架构上运行这些模型限制了它们可实现的性能和能源效率。专门用于人工智能推理的硬件开发已经取得了进展,但其中许多架构在物理上分割了内存和处理单元。这意味着人工智能模型通常存储在离散的内存位置,计算任务需要在内存和处理单元之间不断地整理数据。此过程会减慢计算速度并限制可实现的最大能源效率。 IBM 研究中心一直在研究重塑人工智能计算方式的方法。模拟内存计算,或者简称模拟人工智能,是一种很有前途的方法,可以借用神经网络在生物大脑中运行的关键特征来应对这一挑战。在我们的大脑以及许多其他动物的大脑中,突触的强度(或称“权重”)决定了神经元之间的通信。对于模拟人工智能系统,研究人员将这些突触权重本地存储在纳米级电阻存储设备的电导值中,例如相变存储器(PCM) 并通过利用电路定律并减少在内存和处理器之间不断发送数据的需要来执行乘法累加 (MAC) 操作,这是 DNN 中的主要计算操作。对于模拟人工智能处理,IBM表示需要克服两个关键挑战:这些存储器阵列需要以与现有数字系统相当的精度进行计算,并且它们需要能够与数字计算单元以及数字通信结构无缝连接。 据TechXplore网8月22日消息,美国IBM公司又开发出一种新型类脑AI芯片,基于相变存储器的用于深度神经网络推理的 64 位混合信号内存计算芯片。这种新型混合信号芯片的工作方式与大脑中突触相互作用的方式类似,具有64个模拟内存核心,每个核心都托管一组突触细胞单元。同时,该芯片还具有一个转换器,确保模拟和数字信号之间的平滑转换。据IBM公司称,新型芯片在CIFAR-10数据集的测试中实现了92.81%的准确率。该芯片具有较高的能效比,能效可达传统数字计算机芯片的14倍,可大幅降低AI计算的功耗,未来有望满足低能耗、高算力的场景需求。 面对传统通用处理器(包含图形处理器、中央处理器等)效能低下的问题,IBM研究团队提出“模拟内存计算”的方案,通过在自身的存储器上并行执行矩阵-向量乘法,以提供更强的能效。IBM的研究团队基于该方案开发出了一个 14nm 模拟芯片,利用34个大型相变存储器(PCM)阵列,结合了数模转换输入、模拟外围电路、模数转换输出和大规模并行二维网格路由。每个14nm芯片上可编码3500万个PCM,在每权重对应2-PCMs的方案中,可容纳1700万个参数。将这些芯片组合在一起,便能够像数字芯片一样有效地处理真实AI用例的实验。该芯片是在 IBM 的 Albany NanoTech Complex 中制造的,由 64 个模拟内存计算核心(或块)组成,每个核心包含 256×256 的突触单元格交叉阵列。使用该芯片,IBM对模拟内存计算的计算精度进行了最全面的研究,并在CIFAR-10图像数据集上证明了 92.81% 的准确率,是目前报道的使用类似技术的芯片中精度最高的。8位输入输出矩阵向量乘法密度为400Gop/s/mm,峰值达到63Top/s和9.76Top/W,功耗比之前基于电阻式存储器的多核内存计算芯片高出 15 倍以上,同时实现了可比的能源效率。 相关成果以题名“A 64-core mixed-signal in-memory compute chip based on phase-change memory for deep neural network inference”于8月10日在线发表于《自然-电子》(Nature Electronics)期刊。 参考链接:https://www.163.com/dy/article/IDDS0R940511838M.html https://caifuhao.eastmoney.com/news/20230812113147087316760 https://xueqiu.com/9919963656/149699780 论文链接:https://www.nature.com/articles/s41928-023-01010-1
  • 《前沿 | 光芯片-深度神经网络》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:胡思思
    • 发布时间:2024-12-09
    • 随着深度神经网络彻底改变了机器学习,能耗和吞吐量(throughput指单位时间内完成的指令数)正在成为互补金属氧化物半导体complementary metal–oxide–semiconductor (CMOS) 电子产品的基本限制。这激发了人工智能优化新硬件架构的研究,例如电子脉动阵列、忆阻器交叉阵列和光学加速器。光学系统以极高速率和效率,执行线性矩阵运算,激发了低延迟矩阵加速器和光电图像分类器的最新实验演示。然而,证明深度神经网络的相干、超低延迟光学处理,仍然是主要挑战之一。 近日,美国 麻省理工学院(Massachusetts Institute of Technology,MIT)Saumil Bandyopadhyay,Dirk Englund等,在Nature Photonics上发文,在可扩展光子集成电路中,实现了这样的光学系统,将用于矩阵代数和非线性激活函数的多个相干光学处理器单元,单片集成到单个芯片中。 实验表明,这种完全集成的相干光学神经网络架构,适用于具有六个神经元和三层的深度神经网络,可光学计算线性和非线性函数,延迟为410ps,从而开启了超快、直接处理光学信号的新应用。在这种系统上,实现了无反向传播的原位训练,在六类元音分类任务上,达到了92.5%准确率,这相当于在数字计算机上获得的准确率。 这项工作,为原位训练的理论建议,提供了实验证据,使训练数据的吞吐量提高了几个数量级。完全集成的相干光学神经网络,实现了以纳秒延迟和每操作毫微微焦耳能量效率进行推理。 图1: 完全集成相干光学神经网络fully integrated coherent optical neural network ,FICONN架构 图2: 光子集成电路photonic integrated circuit,PIC 图3: 非线性激活函数单元nonlinear optical function unit,NOFU 图4: 无反向传播的原位训练