《AMD前芯片研发总监创业两年多 研发了一款超越Intel/NVIDIA的AI视觉芯片》

  • 来源专题:集成电路
  • 编译者: shenxiang
  • 发布时间:2018-10-24
  • 新一轮的AI热潮让一批创业者努力为自己贴上AI标签以便搭上这一波热潮的红利,当然也有一批创业者在AI热潮到来之前就早有准备。AI芯片就是许多早有准备的创业者看好的创业方向,他们想要为AI语音或视觉提供更好的芯片,从目前的情况看,AI视觉芯片领域的竞争相对激烈。值得注意的是,由AMD前芯片研发总监带领的团队用时两年多研发了一款声称超越Intel Movidius MyriadX和Nvidia Tegra X2的AI视觉芯片,事实果真如此?

    世界第一的AI视觉芯片来自初创公司

    伴随AI的热潮,全球范围内无论是传统芯片巨头、科技企业还是初创公司都对AI芯片有非常高的热情。Intel在2016年收购了硅谷初创视觉处理公司Movidius增强了其在视觉芯片领域的实力,Nvidia也有图像性能强大的Tegra移动处理器。国内,地平线机器人、NextVPU、耐能、云天励飞、寒武纪科技等都是AI视觉芯片创业公司的代表。

    越来越多公司的加入也让AI视觉处理器市场的竞争变得越来越激烈,NextVPU(肇观电子)CEO冯歆鹏表示:“AI视觉处理器是一个正在兴起的市场,无论是对巨头还是创业企业都非常重要。我们判断视觉处理器的市场规模未来一定会超过CPU市场。”

    他同时表示:“目前的时间点比较有意思,市场的需求已经起来,但芯片处理AI视觉需求的时候速度慢且开发痛苦,价格也很昂贵。如今这个市场还是比较蓝海的情况,英特尔和英伟达这样的芯片巨头在往前走,但是他们的进展相对慢一些,因为新兴的市场规模还比较小,大公司往往是做大市场服务大客户,新兴市场难以撑起大公司的整个项目。从历史的经验看,这种科技变革的节点小公司更有优势。在AI视觉处理器领域,可以说目前我们微微领先。”

    冯歆鹏口中微微领先的AI视觉芯片就是被称为世界第一的AI视觉处理器NextVPU N171,这个第一如何理解?冯歆鹏表示,在端侧,我们的AI视觉处理器的几何引擎每秒能计算2.48亿个3D点,这个结果把目前世界领先的的水平推进了一大步。另外,N171的CNN引擎跑深度神经网络例如ResNet的结果也比Nvidia Tegra X2高好几倍。每秒3D点云的性能也比Intel Movidius Myriad2、Nvidia Tegra X2高几倍,还支持其它AI视觉处理器不支持的像素级理解和语义分割。

    这家推出被称为世界第一AI视觉处理器的公司是创立于2016年5月的NextVPU,不过NextVPU创立之初首先推出的是辅助盲人感知世界和出行的智能眼镜,原因从冯歆鹏创业的历程就能找到。冯歆鹏在创业前担任AMD的研发总监,与创业搭档周骥博士在大概2012年的时候就开始关注计算机视觉的方向,到了2016年他们觉得很多机会都已经出现,不能再继续等下去,最后两人就在2016年创立了NextVPU(Next Vision Processing Unit, 未来的视觉处理器),中文名为肇观(有开启视觉的含义),冯歆鹏担任CEO,周骥担任CTO。虽然从创业之初就准备做芯片,但他们觉得2016年整个行业还没起来,单一的环节做得好没什么用,因此不得不先做一个产品。当然,从他们创业的第一天开始就在为芯片做准备,也就后来N171里的核心自研IP。

    为何能开发出超越芯片巨头的AI芯片?

    从数据上看,NextVPU N171可以被称为世界第一的AI视觉芯片,不过更让人关注的是初创公司为何能打造出超越芯片巨头的终端AI视觉芯片?这需要从NextVPU N171芯片的定位到功能去理解,创业之前冯歆鹏就已经明确了要做一款AI视觉芯片,但AI芯片可以分为云端和终端芯片,不同的选择将面对不同的市场竞争。冯歆鹏表示,云端和终端都有很多机会,从英特尔的收入分布看终端和服务器芯片的收入比约为5:1,其中服务器芯片出货量少、单价高利润率也比较高,但是这一市场竞争非常激烈,几乎是巨头垄断,更适合较大的企业。终端芯片无论是市场总量还是芯片需求量都远大于服务器市场,并且终端市场更具多样性,用户的需求也有一定的差别,小公司进入和发展都比较有利。

    选择了终端市场之后,接下来需要定义产品功能。冯歆鹏指出,计算机视觉面临几何和理解两大挑战,当然,无论是几何还是理解都有大量的需求,比如客户想通过3D环境扫描做一个模型构建地图,或者生产线上不同的零件区分,这就需要VSLAM、多目、结构光、TOF等技术,也需要CNN识别,检测和分割等技术。看到这些需求并且了解到如今的芯片不能满足需求之后,我们芯片的功能大概就确定了。

    因此,NextVPU N171具备的一大特色就是集成了三个自主IP:几何引擎、深度神经网络引擎(CNN)、图像成像引擎(ISP)。几何引擎用于同时处理传感器获得的数据、坐标空间信息、时间等多输入的信息,也就是对三维点组成的点云做各种计算,这是所有VSLAM三维重建的基础,机器人、汽车、AR和VR领域等对此都有急迫的需求。据悉,N171几何引擎每秒能处理2.48亿个3D点,处于业界领先的水平。

    深度神经网络引擎支持图像的检测识别、分割以及各种主流的CNN算法。模型从简单到复杂,逻辑从几层到几百层都支持。冯歆鹏强调,深度神经网络引擎我们花了很长时间去做,并且跑越复杂的模型我们的深度神经网络引擎的利用率越高,越流行的网络模型,利用率也越高,几乎可以达到理论极限。

    视觉成像引擎则是对图像进行处理,为了能够让机器看懂世界,视觉成像引擎做了非常多特殊的处理的调教,动态范围可以做到150dB,这是基于机器视觉的需求所决定。

    除了三大自主IP,N171还有一大特色就是可独立运行操作系统,这个功能是通过N171中的多核CPU来实现。对于这个功能,冯歆鹏表示许多用户习惯于用像Linux这样的操作系统做文件的存储和调取,然后做日志,而非使用特殊的轻量级内核。要实现这个功能,有两种方式,一种是分布式的做法,在常用应用处理器AP芯片的基础上增加一个AI协处理器,第二种方式是异构融合,也就是将两个芯片做集成。

    “我们接触到的所有客户都倾向于第二种方式,所以我们集成了多核CPU能够运行操作系统,让我们的芯片既能满足传统需求,也有很好地AI性能。另外,集成度越高,芯片内部的数据传输及交换的成本也能越低。”冯歆鹏补充表示。

    由此不难看出,发现市场的痛点和需求之后,根据客户的需求一步步明确产品的形态和功能打造满足市场需求的产品,通过自研的IP,以ASIC芯片的形式实现,N171最终获得比传统芯片巨头性能更强的芯片自然也就可以理解。不过,对市场需求的正确判断以及好的产品理念还不足以让一款芯片成功流片,背后的团队也非常关键。

    冯歆鹏和周骥都来自AMD,我们知道AMD是提供CPU,也能提供GPU的高性能计算芯片公司,而AI需要的就是高性能芯片,因此从Intel、Nvidia、AMD这三家高性能计算芯片公司出来的团队在做AI芯片的时候在经验上更具优势。冯歆鹏参与过50多款CPU和GPU的设计,对于高性能计算芯片里的流水线设计、数据的分布式存储处理等都非常有经验。除了基于已有的经验积累用两年多的时间先做IP然后做SoC,N171在其他方面也有巨大的投入。

    能否成功落地?

    在设计、功能都能够满足市场需求之后,芯片的实际性能成为考验一款芯片能否成功落地的关键。对于N171这样的高性能芯片,无法回避的问题就是高性能带来的高功耗。冯歆鹏表示:“一款芯片的设计只要遵循规则不出错,性能和功耗的实际值和理论值基本会遵循一条曲线。我们产品的性能和功耗水平同样基于客户的需求,根据客户产品设计的电池容量以及他们期望的续航时间,可以推导出芯片功耗的具体水平,只要功耗不大到一定的程度客户都能够接受。当然N171的性能和功耗也可以调教,不同的时钟频率对应不同的功耗,也可以根据客户的需求进行配置。“

    N171虽然是高性能芯片,但并没有采用最先进的7nm工艺,而是选择了28nm工艺,这主要是从市场的角度出发,使用成熟的28nm工艺的性能和功耗就能够满足这款芯片目标市场和客户的需求。

    而在N171芯片的目标市场之中,汽车市场对于芯片的稳定性、实时性、安全性都有更高的要求。为了进入这一市场,冯歆鹏表示:“我们的芯片首先满足ISO TS16949、AEC-Q100两个车规标准,也正在做ISO26262标准。另外,汽车市场比消费市场和工业市场有一些差异化的需求,比如需要支持零下40度到零上125度的温度,还要求芯片在出现错误之后能够自己恢复和校准。因此我们用更好的封装材料保证其稳定性、测试的流程也更加复杂。基于之前设计波音飞机上使用的CPU的经验,我们对这些都很有经验,只是需要付出更多的时间和成本。”

    至于火热的安防市场,他们A轮的领投方是中电海康基金,这个基金背后是中电科技集团和中电海康集团。中电海康集团下属的海康威视是国内安防领域的龙头,他们在积极布局智能摄像头,NextVPU N171里的很多设计和功能也是为安防考虑。

    既然基于相同晶圆和裸片的N171能够满足汽车和工业市场的需求,那么消费级市场当然也是NextVPU不会错过的。据悉,N171的第一代芯片已经成功流片,测试的结果也非常好,现在正处于客户导入的阶段,距离正式的上市还有几个月时间。冯歆鹏透露目前的合作客户已经涵盖车载、安防和机器人,希望未来N171还能做第二代、第三代,持续做下去。

    在AI的热潮下,许多有经验有实力敏锐的大咖都开始了创业,他们希望能够在新的浪潮里发挥更大的价值,很显然NextVPU的团队就属于这一的创业团队。在技术、产品都能够比肩芯片巨头的情况下,芯片的实际落地更考验创业团队,在这个过程中会遇到很多意想不到的事情。相信我们都愿意看到NextVPU的产品能够不断迭代,为计算机视觉领域带来更好的AI芯片,也能够增强中国芯片的实力。

相关报告
  • 《AMD前芯片研发总监创业两年多 研发了一款超越Intel/NVIDIA的AI视觉芯片》

    • 来源专题:集成电路制造与应用
    • 编译者:shenxiang
    • 发布时间:2018-10-24
    • 新一轮的AI热潮让一批创业者努力为自己贴上AI标签以便搭上这一波热潮的红利,当然也有一批创业者在AI热潮到来之前就早有准备。AI芯片就是许多早有准备的创业者看好的创业方向,他们想要为AI语音或视觉提供更好的芯片,从目前的情况看,AI视觉芯片领域的竞争相对激烈。值得注意的是,由AMD前芯片研发总监带领的团队用时两年多研发了一款声称超越Intel Movidius MyriadX和Nvidia Tegra X2的AI视觉芯片,事实果真如此? 世界第一的AI视觉芯片来自初创公司 伴随AI的热潮,全球范围内无论是传统芯片巨头、科技企业还是初创公司都对AI芯片有非常高的热情。Intel在2016年收购了硅谷初创视觉处理公司Movidius增强了其在视觉芯片领域的实力,Nvidia也有图像性能强大的Tegra移动处理器。国内,地平线机器人、NextVPU、耐能、云天励飞、寒武纪科技等都是AI视觉芯片创业公司的代表。 越来越多公司的加入也让AI视觉处理器市场的竞争变得越来越激烈,NextVPU(肇观电子)CEO冯歆鹏表示:“AI视觉处理器是一个正在兴起的市场,无论是对巨头还是创业企业都非常重要。我们判断视觉处理器的市场规模未来一定会超过CPU市场。” 他同时表示:“目前的时间点比较有意思,市场的需求已经起来,但芯片处理AI视觉需求的时候速度慢且开发痛苦,价格也很昂贵。如今这个市场还是比较蓝海的情况,英特尔和英伟达这样的芯片巨头在往前走,但是他们的进展相对慢一些,因为新兴的市场规模还比较小,大公司往往是做大市场服务大客户,新兴市场难以撑起大公司的整个项目。从历史的经验看,这种科技变革的节点小公司更有优势。在AI视觉处理器领域,可以说目前我们微微领先。” 冯歆鹏口中微微领先的AI视觉芯片就是被称为世界第一的AI视觉处理器NextVPU N171,这个第一如何理解?冯歆鹏表示,在端侧,我们的AI视觉处理器的几何引擎每秒能计算2.48亿个3D点,这个结果把目前世界领先的的水平推进了一大步。另外,N171的CNN引擎跑深度神经网络例如ResNet的结果也比Nvidia Tegra X2高好几倍。每秒3D点云的性能也比Intel Movidius Myriad2、Nvidia Tegra X2高几倍,还支持其它AI视觉处理器不支持的像素级理解和语义分割。 这家推出被称为世界第一AI视觉处理器的公司是创立于2016年5月的NextVPU,不过NextVPU创立之初首先推出的是辅助盲人感知世界和出行的智能眼镜,原因从冯歆鹏创业的历程就能找到。冯歆鹏在创业前担任AMD的研发总监,与创业搭档周骥博士在大概2012年的时候就开始关注计算机视觉的方向,到了2016年他们觉得很多机会都已经出现,不能再继续等下去,最后两人就在2016年创立了NextVPU(Next Vision Processing Unit, 未来的视觉处理器),中文名为肇观(有开启视觉的含义),冯歆鹏担任CEO,周骥担任CTO。虽然从创业之初就准备做芯片,但他们觉得2016年整个行业还没起来,单一的环节做得好没什么用,因此不得不先做一个产品。当然,从他们创业的第一天开始就在为芯片做准备,也就后来N171里的核心自研IP。 为何能开发出超越芯片巨头的AI芯片? 从数据上看,NextVPU N171可以被称为世界第一的AI视觉芯片,不过更让人关注的是初创公司为何能打造出超越芯片巨头的终端AI视觉芯片?这需要从NextVPU N171芯片的定位到功能去理解,创业之前冯歆鹏就已经明确了要做一款AI视觉芯片,但AI芯片可以分为云端和终端芯片,不同的选择将面对不同的市场竞争。冯歆鹏表示,云端和终端都有很多机会,从英特尔的收入分布看终端和服务器芯片的收入比约为5:1,其中服务器芯片出货量少、单价高利润率也比较高,但是这一市场竞争非常激烈,几乎是巨头垄断,更适合较大的企业。终端芯片无论是市场总量还是芯片需求量都远大于服务器市场,并且终端市场更具多样性,用户的需求也有一定的差别,小公司进入和发展都比较有利。 选择了终端市场之后,接下来需要定义产品功能。冯歆鹏指出,计算机视觉面临几何和理解两大挑战,当然,无论是几何还是理解都有大量的需求,比如客户想通过3D环境扫描做一个模型构建地图,或者生产线上不同的零件区分,这就需要VSLAM、多目、结构光、TOF等技术,也需要CNN识别,检测和分割等技术。看到这些需求并且了解到如今的芯片不能满足需求之后,我们芯片的功能大概就确定了。 因此,NextVPU N171具备的一大特色就是集成了三个自主IP:几何引擎、深度神经网络引擎(CNN)、图像成像引擎(ISP)。几何引擎用于同时处理传感器获得的数据、坐标空间信息、时间等多输入的信息,也就是对三维点组成的点云做各种计算,这是所有VSLAM三维重建的基础,机器人、汽车、AR和VR领域等对此都有急迫的需求。据悉,N171几何引擎每秒能处理2.48亿个3D点,处于业界领先的水平。 深度神经网络引擎支持图像的检测识别、分割以及各种主流的CNN算法。模型从简单到复杂,逻辑从几层到几百层都支持。冯歆鹏强调,深度神经网络引擎我们花了很长时间去做,并且跑越复杂的模型我们的深度神经网络引擎的利用率越高,越流行的网络模型,利用率也越高,几乎可以达到理论极限。 视觉成像引擎则是对图像进行处理,为了能够让机器看懂世界,视觉成像引擎做了非常多特殊的处理的调教,动态范围可以做到150dB,这是基于机器视觉的需求所决定。 除了三大自主IP,N171还有一大特色就是可独立运行操作系统,这个功能是通过N171中的多核CPU来实现。对于这个功能,冯歆鹏表示许多用户习惯于用像Linux这样的操作系统做文件的存储和调取,然后做日志,而非使用特殊的轻量级内核。要实现这个功能,有两种方式,一种是分布式的做法,在常用应用处理器AP芯片的基础上增加一个AI协处理器,第二种方式是异构融合,也就是将两个芯片做集成。 “我们接触到的所有客户都倾向于第二种方式,所以我们集成了多核CPU能够运行操作系统,让我们的芯片既能满足传统需求,也有很好地AI性能。另外,集成度越高,芯片内部的数据传输及交换的成本也能越低。”冯歆鹏补充表示。 由此不难看出,发现市场的痛点和需求之后,根据客户的需求一步步明确产品的形态和功能打造满足市场需求的产品,通过自研的IP,以ASIC芯片的形式实现,N171最终获得比传统芯片巨头性能更强的芯片自然也就可以理解。不过,对市场需求的正确判断以及好的产品理念还不足以让一款芯片成功流片,背后的团队也非常关键。 冯歆鹏和周骥都来自AMD,我们知道AMD是提供CPU,也能提供GPU的高性能计算芯片公司,而AI需要的就是高性能芯片,因此从Intel、Nvidia、AMD这三家高性能计算芯片公司出来的团队在做AI芯片的时候在经验上更具优势。冯歆鹏参与过50多款CPU和GPU的设计,对于高性能计算芯片里的流水线设计、数据的分布式存储处理等都非常有经验。除了基于已有的经验积累用两年多的时间先做IP然后做SoC,N171在其他方面也有巨大的投入。 能否成功落地? 在设计、功能都能够满足市场需求之后,芯片的实际性能成为考验一款芯片能否成功落地的关键。对于N171这样的高性能芯片,无法回避的问题就是高性能带来的高功耗。冯歆鹏表示:“一款芯片的设计只要遵循规则不出错,性能和功耗的实际值和理论值基本会遵循一条曲线。我们产品的性能和功耗水平同样基于客户的需求,根据客户产品设计的电池容量以及他们期望的续航时间,可以推导出芯片功耗的具体水平,只要功耗不大到一定的程度客户都能够接受。当然N171的性能和功耗也可以调教,不同的时钟频率对应不同的功耗,也可以根据客户的需求进行配置。“ N171虽然是高性能芯片,但并没有采用最先进的7nm工艺,而是选择了28nm工艺,这主要是从市场的角度出发,使用成熟的28nm工艺的性能和功耗就能够满足这款芯片目标市场和客户的需求。 而在N171芯片的目标市场之中,汽车市场对于芯片的稳定性、实时性、安全性都有更高的要求。为了进入这一市场,冯歆鹏表示:“我们的芯片首先满足ISO TS16949、AEC-Q100两个车规标准,也正在做ISO26262标准。另外,汽车市场比消费市场和工业市场有一些差异化的需求,比如需要支持零下40度到零上125度的温度,还要求芯片在出现错误之后能够自己恢复和校准。因此我们用更好的封装材料保证其稳定性、测试的流程也更加复杂。基于之前设计波音飞机上使用的CPU的经验,我们对这些都很有经验,只是需要付出更多的时间和成本。” 至于火热的安防市场,他们A轮的领投方是中电海康基金,这个基金背后是中电科技集团和中电海康集团。中电海康集团下属的海康威视是国内安防领域的龙头,他们在积极布局智能摄像头,NextVPU N171里的很多设计和功能也是为安防考虑。 既然基于相同晶圆和裸片的N171能够满足汽车和工业市场的需求,那么消费级市场当然也是NextVPU不会错过的。据悉,N171的第一代芯片已经成功流片,测试的结果也非常好,现在正处于客户导入的阶段,距离正式的上市还有几个月时间。冯歆鹏透露目前的合作客户已经涵盖车载、安防和机器人,希望未来N171还能做第二代、第三代,持续做下去。 在AI的热潮下,许多有经验有实力敏锐的大咖都开始了创业,他们希望能够在新的浪潮里发挥更大的价值,很显然NextVPU的团队就属于这一的创业团队。在技术、产品都能够比肩芯片巨头的情况下,芯片的实际落地更考验创业团队,在这个过程中会遇到很多意想不到的事情。相信我们都愿意看到NextVPU的产品能够不断迭代,为计算机视觉领域带来更好的AI芯片,也能够增强中国芯片的实力。
  • 《盘点2019年全球十大AI芯片》

    • 来源专题:集成电路
    • 编译者:shenxiang
    • 发布时间:2019-12-25
    • 人工智能 浪潮的推动下,AI相关产业的商用场景正逐步大规模落地,基于AI技术的三大支柱:“算法+大数据+计算能力”智能应用已成为计算机最主要的负载之一。我国在用户数据方面拥有数量的先天优势,但面对有限的规模、结构固定、能耗受限的硬件制约下,如何用AI芯片处理海量的并不断演进的深度学习算法呢?跟随OFweek编辑一起来看看各大科技巨头们研发的AI芯片吧。(排名按首字母顺序排列) 1.含光800 2019年的杭州云栖大会上,达摩院院长张建锋现场展示了这款全球最强的 AI芯片——含光800。在业界标准的 ResNet-50 测试中,含光 800 推理性能达到 78563 IPS,比目前业界最好的 AI 芯片性能高 4 倍;能效比500 IPS/W,一个含光800的算力相当于10个GPU。 目前,含光800已经实现了大规模应用于阿里巴巴集团内多个场景,例如视频图像识别/分类/搜索、城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。以杭州城市大脑实时处理1000路视频为例,过去使用GPU需要40块,延时为300ms,单路视频功耗2.8W;使用含光800仅需4块,延时150ms,单路视频功耗1W。 2.Graphcore IPU 总部位于英国布里斯托的Graphcore公司日前推出了一款称为智能处理单元(IPU)的新型AI加速处理器。芯片本身,即IPU处理器,是迄今为止最复杂的处理器芯片:它在一个16纳米芯片上有几乎240亿个晶体管,每个芯片提供125 teraFLOPS运算能力。一个标准4U机箱中可插入8张卡,卡间通过IPU链路互连。8张卡中的IPU可以作为一个处理器元件工作,提供两个petaFLOPS的运算能力。与芯片在CPU和GPU中的存在形式不同,它为机器智能提供了更高效的处理平台。 Graphcore公司于2016年启动风险投资计划,并在2018年12月的最后一轮融资中募集了2亿美元。基于其17亿美元的公司估值,Graphcore已成为西方半导体界的唯一“独角兽”。它的投资者们包括戴尔、博世、宝马、微软和三星。 3.Inferentia芯片 2019年,亚马逊的云服务业务AWS在其发布会AWS re:Invent上带来了高性能机器学习加速芯片Inferentia。据了解,AWS Inferentia 是一个由 AWS 定制设计的机器学习推理芯片,旨在以极低成本交付高吞吐量、低延迟推理性能。该芯片将支持 TensorFlow、Apache MXNet 和 PyTorch 深度学习框架以及使用 ONNX 格式的模型。 每个 AWS Inferentia 芯片都能在低功率下支持高达 128 TOPS(每秒数万亿次运行)的性能,从而为每个 EC2 实例启用多个芯片。AWS Inferentia 支持 FP16、BF16 和 INT8 数据类型。此外,Inferentia 可以采用 32 位训练模型,并使用 BFloat16 以 16 位模型的速度运行该模型。与EC4上的常规Nvidia G4实例相比,借助Inferentia,AWS可提供更低的延迟和三倍的吞吐量,且每次推理成本降低40%。 4.昆仑芯片 2019年尾声,百度宣布首款AI芯片昆仑已经完成研发,将由三星代工生产。该芯片使用的是三星14nm工艺技术,封装解决方案采用的是I-Cube TM。 据悉,昆仑AI芯片提供512Gbps的内存带宽,在150瓦的功率下实现260TOPS的处理能力,能支持语音,图像,NLP等不同的算法模型,其中ERNIE模型的性能是T4GPU的三倍以上,兼容百度飞桨等主流深度学习框架。该款芯片主要用于云计算和边缘计算,预计在2020年初实现量产, 5.Nervana NNP 芯片 2019 英特尔人工智能峰会,英特尔推出面向训练 (NNP-T1000) 和面向推理 (NNP-I1000) 的英特尔 Nervana 神经网络处理器 (NNP)。据了解,Nervana NNP-T 代号 Spring Crest,采用了台积电的 16nm FF+ 制程工艺,拥有 270 亿个晶体管,硅片面积 680 平方毫米,能够支持 TensorFlow、PaddlePaddle、PYTORCH 训练框架,也支持 C++ 深度学习软件库和编译器 nGraph。 Nervana NNP-I,代号为 Spring Hill,是一款专门用于大型数据中心的推理芯片。这款芯片是基于 10nm 技术和 Ice Lake 内核打造的,打造地点是以色列的 Haifa ,Intel 号称它能够利用最小的能量来处理高负载的工作,它在 ResNet50 的效率可达 4.8TOPs/W,功率范围在 10W 到 50W 之间。 6.Orin芯片 2019年NVIDIA GTC中国大会中英伟达发布了全新的软件定义自动驾驶平台——NVIDIA DRIVE AGX Orin,该平台内置全新Orin系统级芯片,由170亿个晶体管组成。 Orin系统级芯片集成了NVIDIA新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和 计算机视觉 加速器,每秒可运行200万亿次计算,几乎是NVIDIA上一代Xavier系统级芯片性能的7倍。此外,Orin可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,并且达到了ISO 26262 ASIL-D等系统安全标准。 7.邃思DTU 由腾讯领投、融资累计超过 6 亿元的 AI 芯片公司燧原科技,在2019年发布会中推出自主研发的首款 AI 训练芯片“邃思 DTU”。 据了解邃思DTU采用格罗方德12nm FinFET工艺,480平方毫米主芯片上承载141亿个晶体管,实现2.5D高级立体封装,据称单卡单精度算力为业界第一,达20TFLOPS,首次支持混合精度,半精度及混合精度下算力达80TFLOPS,最大功耗仅225W。 邃思芯片基于可重构芯片的设计理念,其计算核心包含 32 个通用可扩展神经元处理器(SIP),每 8 个 SIP 组合成 4 个可扩展智能计算群(SIC)。SIC 之间通过 HBM 实现高速互联,通过片上调度算法,数据在迁移中完成计算,实现了 SIP 利用率最大化。 8.思元220芯片 寒武纪在第21届高交会正式发布边缘AI系列产品思元220(MLU220)芯片及M.2加速卡产品,标志寒武纪在云、边、端实现了全方位、立体式的覆盖。 思元220芯片采用了寒武纪在处理器架构领域的一系列创新性技术,其架构为寒武纪最新一代智能处理器MLUv02,实现最大32TOPS(INT4)算力,而功耗仅10W,可提供16/8/4位可配置的定点运算。作为通用处理器,支持各类深度学习技术,支持多模态智能处理(视觉、语音和 自然语言处理 ),应用领域广泛,客户可以根据实际应用灵活的选择运算类型来获得卓越的人工智能推理性能。 9.昇腾910 2019年8月,华为在深圳总部发布AI处理器Ascend 910(昇腾910),据华为发布的参数显示,昇腾910是一款具有超高算力的AI处理器,其最大功耗为310W,华为自研的达芬奇架构大大提升了其能效比。八位整数精度(INT8)下的性能达到512TOPS,16位浮点数(FP16)下的性能达到256 TFLOPS。 作为一款高集成度的片上系统(SoC),除了基于达芬奇架构的AI核外,昇腾910还集成了多个CPU、DVPP和任务调度器(Task Scheduler),因而具有自我管理能力,可以充分发挥其高算力的优势。 昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口,为构建横向扩展(Scale Out)和纵向扩展(Scale Up)系统提供了灵活高效的方法。HCCS是华为自研的高速互联接口,片内RoCE可用于节点间直接互联。最新的PCIe 4.0的吞吐量比上一代提升一倍。 10.征程二代 2019世界 人工智能大会 中,人工智能芯片初创公司地平线正式宣布量产中国首款车规级人工智能芯片——征程二代,并且获得五个国家市场客户的前装定点项目。 据介绍,征程二代于今年初流片成功,搭载地平线自主创新研发的高性能计算架构BPU2.0(Brain Processing Unit),可提供超过4TOPS的等效算力,典型功耗仅2瓦,满足AEC-Q100标准,算力利用率超过90%,每TOPS算力可以处理的帧数可达同等算力GPU的10倍以上,识别精度超过99%,延迟少于100毫秒,多任务模式下可以同时跑超过60个分类任务,每秒钟识别目标数可以超过2000个。 此次地平线率先推出首款车规级AI芯片不仅实现了中国车规级AI芯片量产零的突破,也补齐了国内自动驾驶产业生态建设的关键环节。 小结 目前通过CPU/GPU处理人工神经网络效率低下,谷歌大脑需要1.6万个CPU核跑数天方能完成猫脸识别训练;AIpha GO与李世石下棋时用了1000个CPU和200个GPU,AI芯片的发展是第三次AI浪潮中极为明显的趋势,算法已渗透到云服务器和智能手机的方方面面,未来每台计算机可能都需要一个专门的深度学习处理器。