《让AI个性化而且功耗更低 IBM研发新型神经网络芯片》

  • 来源专题:半导体工艺技术
  • 编译者: shenxiang
  • 发布时间:2018-06-27
  • 在GPU上运行的神经网络已经在人工智能领域取得了一些惊人的进步,但这两者的合作还并不完美。IBM的研究人员希望能设计出一种专门用于运行神经网络的新的芯片,从而提供更快、更有效的替代方案。

    直到本世纪初,研究人员才意识到,为视频游戏设计的GPU(图形处理单元)可以被用作硬件加速器,以运行比以前更大的神经网络。

    这要归功于这些芯片能够并行进行大量计算,而不是像传统CPU那样按顺序处理它们。这对于同时计算构成深度学习神经网络的数百个神经元的权重特别有用。

    GPU的引入使这一领域得到了发展,但这些芯片仍然需要将处理和存储分开,这意味着大量的时间和精力都花在了两者之间的数据传输上。这促使人们开始研究新的存储技术,这些技术能够存储和处理同一位置的权重数据,从而提高速度和能源效率。

    这种新的存储设备通过调整它们的电阻水平,以模拟的形式存储数据——也就是说,数据被存储在一个连续的范围内,而不是数字存储器的二进制1和0。因为信息存储在存储单元的电导中,所以可以简单地在存储单元间传递电压并让系统通过物理方法来进行计算。

    但是这些设备固有的物理缺陷意味着它们的行为并不一致,这导致了目前使用它们来训练神经网络的分类精度明显低于使用GPU。

    “我们可以在一个比GPU更快的系统上进行训练,但如果训练操作不那么准确,那是没有用的,”领导该项目的IBM Research博士后研究员Stefano Ambrogio在接受Singularity Hub采访时说,“到目前为止,还没有证据表明使用这些新设备能像使用GPU一样精确。”

    但研究又有了新的进展。在上周发表在《自然》杂志上的一篇论文中,Ambrogio和他的同事们描述了他们是如何利用新兴的模拟记忆和更传统的电子元件组合来创造出一种芯片,这种芯片可以与GPU的精度相匹配,同时运行速度更快,能耗更少。

    这些新的存储技术难以训练深层神经网络的原因是,这个过程需要将每个神经元的权重进行上下数千次的刺激,直到网络完全对齐。改变这些设备的电阻需要重新配置它们的原子结构,而且每次的操作过程都不一样,Ambrogio说。这些刺激并不总是完全相同,这导致了对神经元权重的不精确的调整。

    研究人员通过创造“突触单元”来解决这个问题,这些“突触单元”每一个都对应于网络中的单个神经元,同时具有长期和短期记忆。每个单元格由一对相变存储器(PCM)单元和三个晶体管以及一个电容的组合构成,PCM在电阻中存储权重数据,电容将权重数据存储为电荷。

    PCM是一种“非易失性存储器”,这意味着即使没有外部电源,它也能保留存储的信息,而电容器是“易失性的”,所以只能在几毫秒内保持它的电荷。但是电容器没有PCM设备的可变性,因此可以快速而准确地编程。

    当神经网络对图像进行训练以完成分类任务时,只有电容器的权重会被更新。在浏览到几千张图片后,权重数据会被转移到PCM单元进行长期存储。PCM的可变性意味着,权重数据的转移仍然有可能包含错误,但是由于该单元只是偶尔更新,所以可以在不增加系统复杂性的情况下再次检查电导。Ambrogio说,如果直接在PCM单元上进行训练,这就不可行了。

    为了测试他们的设备,研究人员对他们的网络进行了一系列流行图像识别的基准测试,结果达到了与谷歌领先的神经网络软件TensorFlow相当的精确度。但重要的是,他们预测,最终构建出的芯片将比GPU的能效高280倍,而且在每平方毫米面积上实现的算力将达到CPU的100倍。值得注意的是,研究人员还没有完全构建出这一芯片。

    虽然在测试中使用了真正的PCM单元,但其它组件是在计算机上模拟的。Ambrogio表示,他们希望在投入时间和精力打造完整的芯片之前,先检查一下这种方法是否可行。他说,他们决定使用真正的PCM设备,因为对这些设备的模拟还不太可靠,但其它组件的模拟技术已经很成熟了,他们有信心基于这个设计建立一个完整的芯片。

    它目前也只能在全连接神经网络上与GPU竞争,在这个神经网络中,每个神经元都与上一层的神经元相连接,Ambrogio说。但实际上许多神经网络并没有完全连接,或者只有某些层完全连接在一起。

    但Ambrogio说,最终的芯片将被设计成可以与GPU合作的形式,从而在处理其它连接时也能够处理全连接层的计算。他还认为,这种处理全连接层的更有效的方法可以被更广泛地应用。

    Ambrogio说,这样的专用芯片有两个主要的应用:一是将人工智能应用到个人设备上,二是使数据中心更加高效。后者是大型科技公司的一大担忧,因为它们的服务器消耗了大量的电费。

    如果直接在个人设备上应用人工智能,用户就可以不必在云端分享他们的数据,从而增加隐私性,但Ambrogio说,更令人兴奋的前景是人工智能的个性化。

    他说:“在你的汽车或智能手机上应用这个神经网络,它们就能够不断地从你的经验中学习。”

    “你的手机会专门针对你的声音进行个性化,你的汽车也会根据你的习惯形成独特的驾驶方式。”

相关报告
  • 《让AI个性化而且功耗更低 IBM研发新型神经网络芯片》

    • 来源专题:集成电路设计
    • 编译者:shenxiang
    • 发布时间:2018-06-21
    • 在GPU上运行的神经网络已经在人工智能领域取得了一些惊人的进步,但这两者的合作还并不完美。IBM的研究人员希望能设计出一种专门用于运行神经网络的新的芯片,从而提供更快、更有效的替代方案。 直到本世纪初,研究人员才意识到,为视频游戏设计的GPU(图形处理单元)可以被用作硬件加速器,以运行比以前更大的神经网络。 这要归功于这些芯片能够并行进行大量计算,而不是像传统CPU那样按顺序处理它们。这对于同时计算构成深度学习神经网络的数百个神经元的权重特别有用。 GPU的引入使这一领域得到了发展,但这些芯片仍然需要将处理和存储分开,这意味着大量的时间和精力都花在了两者之间的数据传输上。这促使人们开始研究新的存储技术,这些技术能够存储和处理同一位置的权重数据,从而提高速度和能源效率。 这种新的存储设备通过调整它们的电阻水平,以模拟的形式存储数据——也就是说,数据被存储在一个连续的范围内,而不是数字存储器的二进制1和0。因为信息存储在存储单元的电导中,所以可以简单地在存储单元间传递电压并让系统通过物理方法来进行计算。 但是这些设备固有的物理缺陷意味着它们的行为并不一致,这导致了目前使用它们来训练神经网络的分类精度明显低于使用GPU。 “我们可以在一个比GPU更快的系统上进行训练,但如果训练操作不那么准确,那是没有用的,”领导该项目的IBM Research博士后研究员Stefano Ambrogio在接受Singularity Hub采访时说,“到目前为止,还没有证据表明使用这些新设备能像使用GPU一样精确。” 但研究又有了新的进展。在上周发表在《自然》杂志上的一篇论文中,Ambrogio和他的同事们描述了他们是如何利用新兴的模拟记忆和更传统的电子元件组合来创造出一种芯片,这种芯片可以与GPU的精度相匹配,同时运行速度更快,能耗更少。 这些新的存储技术难以训练深层神经网络的原因是,这个过程需要将每个神经元的权重进行上下数千次的刺激,直到网络完全对齐。改变这些设备的电阻需要重新配置它们的原子结构,而且每次的操作过程都不一样,Ambrogio说。这些刺激并不总是完全相同,这导致了对神经元权重的不精确的调整。 研究人员通过创造“突触单元”来解决这个问题,这些“突触单元”每一个都对应于网络中的单个神经元,同时具有长期和短期记忆。每个单元格由一对相变存储器(PCM)单元和三个晶体管以及一个电容的组合构成,PCM在电阻中存储权重数据,电容将权重数据存储为电荷。 PCM是一种“非易失性存储器”,这意味着即使没有外部电源,它也能保留存储的信息,而电容器是“易失性的”,所以只能在几毫秒内保持它的电荷。但是电容器没有PCM设备的可变性,因此可以快速而准确地编程。 当神经网络对图像进行训练以完成分类任务时,只有电容器的权重会被更新。在浏览到几千张图片后,权重数据会被转移到PCM单元进行长期存储。PCM的可变性意味着,权重数据的转移仍然有可能包含错误,但是由于该单元只是偶尔更新,所以可以在不增加系统复杂性的情况下再次检查电导。Ambrogio说,如果直接在PCM单元上进行训练,这就不可行了。 为了测试他们的设备,研究人员对他们的网络进行了一系列流行图像识别的基准测试,结果达到了与谷歌领先的神经网络软件TensorFlow相当的精确度。但重要的是,他们预测,最终构建出的芯片将比GPU的能效高280倍,而且在每平方毫米面积上实现的算力将达到CPU的100倍。值得注意的是,研究人员还没有完全构建出这一芯片。 虽然在测试中使用了真正的PCM单元,但其它组件是在计算机上模拟的。Ambrogio表示,他们希望在投入时间和精力打造完整的芯片之前,先检查一下这种方法是否可行。他说,他们决定使用真正的PCM设备,因为对这些设备的模拟还不太可靠,但其它组件的模拟技术已经很成熟了,他们有信心基于这个设计建立一个完整的芯片。 它目前也只能在全连接神经网络上与GPU竞争,在这个神经网络中,每个神经元都与上一层的神经元相连接,Ambrogio说。但实际上许多神经网络并没有完全连接,或者只有某些层完全连接在一起。 但Ambrogio说,最终的芯片将被设计成可以与GPU合作的形式,从而在处理其它连接时也能够处理全连接层的计算。他还认为,这种处理全连接层的更有效的方法可以被更广泛地应用。 这样的专用芯片能够使哪些事情成为可能? Ambrogio说,有两个主要的应用:一是将人工智能应用到个人设备上,二是使数据中心更加高效。后者是大型科技公司的一大担忧,因为它们的服务器消耗了大量的电费。 如果直接在个人设备上应用人工智能,用户就可以不必在云端分享他们的数据,从而增加隐私性,但Ambrogio说,更令人兴奋的前景是人工智能的个性化。 他说:“在你的汽车或智能手机上应用这个神经网络,它们就能够不断地从你的经验中学习。” “你的手机会专门针对你的声音进行个性化,你的汽车也会根据你的习惯形成独特的驾驶方式。”
  • 《ARM对塑料芯片的下一个赌注:神经网络》

    • 来源专题:宽带移动通信
    • 编译者:wangxiaoli
    • 发布时间:2018-07-31
    • PragmatIC宣布其刚刚在英国Sedgefield的工厂委托投产了第一台FlexLogIC的“晶圆”设备,承诺进行超低成本、薄且灵活的集成电路(FlexIC)的高吞吐量制造。eeNews欧洲公司与PragmatIC的首席执行官Scott White合作,以获取有关ARM塑料产品开发的最新消息。 早在2015年,ARM的首席技术官Mike Muller就已经用一款设计在3μm的塑料节点上的完全灵活的ARM1 SOC,赢得了ARM TechCon的与会者的惊叹与佩服,该ARM1 SOC的体积约为25K晶体管。 谈到自那时以来所取得的进展,White指出,经过占用面积约为8平方厘米的低端Cortex-M SOC迭代,PragmatIC最新的SOC布局进一步缩小到1平方厘米,该公司现在正转向一个采用新设计规则的塑料工艺节点,首席执行官对此信心十足,相信新的设计规则将进一步减少设备的占用面积。 关于Muller在ARM TechCon上发布的过程节点路线图,White表示PragmatIC符合暂定的塑料路线图,每年将设备的占用面积大致减半,比等效的摩尔硅定律要快一些。 但首席执行官并不认为摩尔定律的类比会持续很长时间。“我们将达到一个稳定的平台,在那里我们的技术将适合实现低端的MCU及以下。驱动Cortex-M项目更像是一个研发上的挑战,看看我们能把这项技术推进到什么程度,但现在几乎没有实际的封装应用需要一个完整的32位SoC,并且它在经济上是有意义的”。 White补充道:“我们的目标电路类型是在几千门的范围内,将大量智能添加到高容量的快速消费品中。那么在未来几年内,1万门可能会成为我们的最佳选择,在这些应用中,灵活性是一项关键的产品效益”。 但是,MCU和传统SoC不一定能像在硅行业中表现的那样,也成为塑料电子产品的主力军。ARM是PragmatIC的投资方,同时也是去年10月与消费品巨头联合利华以及曼彻斯特大学合作开展的PlasticARMPit项目的首席合作开发伙伴。在创新英国资助的项目说明中,合作伙伴致力于为灵活传感器设计高能效的处理引擎,针对特定的传感器数据,而普通的灵活MCU不太可能满足必要的计算需求。 在数字处理引擎方面,合作伙伴建议开发专为特定应用而定制的塑料神经网络(NNs),并能够以极其并行的方式在低功耗下实现高性能。通过这个项目,ARM和PragmatIC都希望建立数字硬件神经网络,来作为印刷电子事实上的处理引擎。 “神经网络对现实世界中的传感应用尤其感兴趣,它结合了不同的传感器输入,它们擅长于对数据进行分类,这样就可以根据你正在寻找的结果类别进行解释”White对PlasticARMPit项目评论道。“更重要的是,灵活的集成电路的物理结构可以很好地转化为神经网络。在有大量冗余的神经网络中,塑料电子器件的比较工作性能和产量都不是什么大问题”White补充道,在塑料箔上印上电子器件可以建模大量的神经元。“通过一层一层地构建电路,我们可以在物理上构建一个模仿神经网络架构的东西。当然,这不是用于高端机器学习的,但是对于智能封装和传感应用,你可以从薄而灵活的电路中获得一种分类形式”。 在PlasticARMPit项目中,联合利华是与这一商业案例相关的人。该公司的想法是将一个灵活的、多分析的电子鼻传感器与一个塑料神经网络结合到一个可穿戴的贴片上,以检测腋下恶臭的成分,并确定该公司的止汗剂和除臭剂的效果如何。在这个将一直持续到2020年3月的特别研究项目中,PragmatIC将整合曼彻斯特大学开发的有机TFT生物传感器,但在这个项目之外,它可以从不同的合作伙伴那里获取传感器。 “我们的重点是解释模拟输入并将其转换为有用的数据,对计算后端感兴趣的传感公司可以来找我们。”首席执行官Scott White说。 在对所谓的个人护理进行初步的市场推广之后,White希望这种塑料神经网络能够打入保健行业,因为这项衬里技术适用于许多生物医学应用。White还预计,通过神经网络,你可以获得一系列不同的分析和融合的传感器数据,这些数据不一定会给出预先确定的1/1匹配答案,而是更复杂的诊断。 关于IP和设计方法,PragmatIC表示FlexIC可以采用传统的EDA流设计。目前,该公司正在进行全面的定制设计,并与选定的亲密合作伙伴(如ARM)共享其过程开发工具包。但在未来,PragmatIC希望塑料芯片的设计能够遵循硅的道路,采用标准的IP库和基于PDK的第三方设计。 自成一体的全自动FlexLogIC系统采用的是模块化构建结构,它要求资本投资比一个新的硅IC芯片工厂小几个数量级,但也为分布式、高度可扩展的制造模型开辟了潜力,该制造模型可将电子器件嵌入日常用品中。与硅IC超过一个月的生产周期相比,其生产周期不到一天,因此,在大规模部署之前,可以在非常短的时间之内开发和测试灵活的电子解决方案。 PragmatIC现在专注于提高产量,以满足一些全球最大消费品牌的应用需求。这其中就包括合作伙伴和投资方Avery Dennison,全球领先的RFID标签制造商,它们将致力于为特定消费者应用提供完全印刷的RFID标签。