《AMD前芯片研发总监创业两年多 研发了一款超越Intel/NVIDIA的AI视觉芯片》

  • 来源专题:集成电路
  • 编译者: shenxiang
  • 发布时间:2018-10-24
  • 新一轮的AI热潮让一批创业者努力为自己贴上AI标签以便搭上这一波热潮的红利,当然也有一批创业者在AI热潮到来之前就早有准备。AI芯片就是许多早有准备的创业者看好的创业方向,他们想要为AI语音或视觉提供更好的芯片,从目前的情况看,AI视觉芯片领域的竞争相对激烈。值得注意的是,由AMD前芯片研发总监带领的团队用时两年多研发了一款声称超越Intel Movidius MyriadX和Nvidia Tegra X2的AI视觉芯片,事实果真如此?

    世界第一的AI视觉芯片来自初创公司

    伴随AI的热潮,全球范围内无论是传统芯片巨头、科技企业还是初创公司都对AI芯片有非常高的热情。Intel在2016年收购了硅谷初创视觉处理公司Movidius增强了其在视觉芯片领域的实力,Nvidia也有图像性能强大的Tegra移动处理器。国内,地平线机器人、NextVPU、耐能、云天励飞、寒武纪科技等都是AI视觉芯片创业公司的代表。

    越来越多公司的加入也让AI视觉处理器市场的竞争变得越来越激烈,NextVPU(肇观电子)CEO冯歆鹏表示:“AI视觉处理器是一个正在兴起的市场,无论是对巨头还是创业企业都非常重要。我们判断视觉处理器的市场规模未来一定会超过CPU市场。”

    他同时表示:“目前的时间点比较有意思,市场的需求已经起来,但芯片处理AI视觉需求的时候速度慢且开发痛苦,价格也很昂贵。如今这个市场还是比较蓝海的情况,英特尔和英伟达这样的芯片巨头在往前走,但是他们的进展相对慢一些,因为新兴的市场规模还比较小,大公司往往是做大市场服务大客户,新兴市场难以撑起大公司的整个项目。从历史的经验看,这种科技变革的节点小公司更有优势。在AI视觉处理器领域,可以说目前我们微微领先。”

    冯歆鹏口中微微领先的AI视觉芯片就是被称为世界第一的AI视觉处理器NextVPU N171,这个第一如何理解?冯歆鹏表示,在端侧,我们的AI视觉处理器的几何引擎每秒能计算2.48亿个3D点,这个结果把目前世界领先的的水平推进了一大步。另外,N171的CNN引擎跑深度神经网络例如ResNet的结果也比Nvidia Tegra X2高好几倍。每秒3D点云的性能也比Intel Movidius Myriad2、Nvidia Tegra X2高几倍,还支持其它AI视觉处理器不支持的像素级理解和语义分割。

    这家推出被称为世界第一AI视觉处理器的公司是创立于2016年5月的NextVPU,不过NextVPU创立之初首先推出的是辅助盲人感知世界和出行的智能眼镜,原因从冯歆鹏创业的历程就能找到。冯歆鹏在创业前担任AMD的研发总监,与创业搭档周骥博士在大概2012年的时候就开始关注计算机视觉的方向,到了2016年他们觉得很多机会都已经出现,不能再继续等下去,最后两人就在2016年创立了NextVPU(Next Vision Processing Unit, 未来的视觉处理器),中文名为肇观(有开启视觉的含义),冯歆鹏担任CEO,周骥担任CTO。虽然从创业之初就准备做芯片,但他们觉得2016年整个行业还没起来,单一的环节做得好没什么用,因此不得不先做一个产品。当然,从他们创业的第一天开始就在为芯片做准备,也就后来N171里的核心自研IP。

    为何能开发出超越芯片巨头的AI芯片?

    从数据上看,NextVPU N171可以被称为世界第一的AI视觉芯片,不过更让人关注的是初创公司为何能打造出超越芯片巨头的终端AI视觉芯片?这需要从NextVPU N171芯片的定位到功能去理解,创业之前冯歆鹏就已经明确了要做一款AI视觉芯片,但AI芯片可以分为云端和终端芯片,不同的选择将面对不同的市场竞争。冯歆鹏表示,云端和终端都有很多机会,从英特尔的收入分布看终端和服务器芯片的收入比约为5:1,其中服务器芯片出货量少、单价高利润率也比较高,但是这一市场竞争非常激烈,几乎是巨头垄断,更适合较大的企业。终端芯片无论是市场总量还是芯片需求量都远大于服务器市场,并且终端市场更具多样性,用户的需求也有一定的差别,小公司进入和发展都比较有利。

    选择了终端市场之后,接下来需要定义产品功能。冯歆鹏指出,计算机视觉面临几何和理解两大挑战,当然,无论是几何还是理解都有大量的需求,比如客户想通过3D环境扫描做一个模型构建地图,或者生产线上不同的零件区分,这就需要VSLAM、多目、结构光、TOF等技术,也需要CNN识别,检测和分割等技术。看到这些需求并且了解到如今的芯片不能满足需求之后,我们芯片的功能大概就确定了。

    因此,NextVPU N171具备的一大特色就是集成了三个自主IP:几何引擎、深度神经网络引擎(CNN)、图像成像引擎(ISP)。几何引擎用于同时处理传感器获得的数据、坐标空间信息、时间等多输入的信息,也就是对三维点组成的点云做各种计算,这是所有VSLAM三维重建的基础,机器人、汽车、AR和VR领域等对此都有急迫的需求。据悉,N171几何引擎每秒能处理2.48亿个3D点,处于业界领先的水平。

    深度神经网络引擎支持图像的检测识别、分割以及各种主流的CNN算法。模型从简单到复杂,逻辑从几层到几百层都支持。冯歆鹏强调,深度神经网络引擎我们花了很长时间去做,并且跑越复杂的模型我们的深度神经网络引擎的利用率越高,越流行的网络模型,利用率也越高,几乎可以达到理论极限。

    视觉成像引擎则是对图像进行处理,为了能够让机器看懂世界,视觉成像引擎做了非常多特殊的处理的调教,动态范围可以做到150dB,这是基于机器视觉的需求所决定。

    除了三大自主IP,N171还有一大特色就是可独立运行操作系统,这个功能是通过N171中的多核CPU来实现。对于这个功能,冯歆鹏表示许多用户习惯于用像Linux这样的操作系统做文件的存储和调取,然后做日志,而非使用特殊的轻量级内核。要实现这个功能,有两种方式,一种是分布式的做法,在常用应用处理器AP芯片的基础上增加一个AI协处理器,第二种方式是异构融合,也就是将两个芯片做集成。

    “我们接触到的所有客户都倾向于第二种方式,所以我们集成了多核CPU能够运行操作系统,让我们的芯片既能满足传统需求,也有很好地AI性能。另外,集成度越高,芯片内部的数据传输及交换的成本也能越低。”冯歆鹏补充表示。

    由此不难看出,发现市场的痛点和需求之后,根据客户的需求一步步明确产品的形态和功能打造满足市场需求的产品,通过自研的IP,以ASIC芯片的形式实现,N171最终获得比传统芯片巨头性能更强的芯片自然也就可以理解。不过,对市场需求的正确判断以及好的产品理念还不足以让一款芯片成功流片,背后的团队也非常关键。

    冯歆鹏和周骥都来自AMD,我们知道AMD是提供CPU,也能提供GPU的高性能计算芯片公司,而AI需要的就是高性能芯片,因此从Intel、Nvidia、AMD这三家高性能计算芯片公司出来的团队在做AI芯片的时候在经验上更具优势。冯歆鹏参与过50多款CPU和GPU的设计,对于高性能计算芯片里的流水线设计、数据的分布式存储处理等都非常有经验。除了基于已有的经验积累用两年多的时间先做IP然后做SoC,N171在其他方面也有巨大的投入。

    能否成功落地?

    在设计、功能都能够满足市场需求之后,芯片的实际性能成为考验一款芯片能否成功落地的关键。对于N171这样的高性能芯片,无法回避的问题就是高性能带来的高功耗。冯歆鹏表示:“一款芯片的设计只要遵循规则不出错,性能和功耗的实际值和理论值基本会遵循一条曲线。我们产品的性能和功耗水平同样基于客户的需求,根据客户产品设计的电池容量以及他们期望的续航时间,可以推导出芯片功耗的具体水平,只要功耗不大到一定的程度客户都能够接受。当然N171的性能和功耗也可以调教,不同的时钟频率对应不同的功耗,也可以根据客户的需求进行配置。“

    N171虽然是高性能芯片,但并没有采用最先进的7nm工艺,而是选择了28nm工艺,这主要是从市场的角度出发,使用成熟的28nm工艺的性能和功耗就能够满足这款芯片目标市场和客户的需求。

    而在N171芯片的目标市场之中,汽车市场对于芯片的稳定性、实时性、安全性都有更高的要求。为了进入这一市场,冯歆鹏表示:“我们的芯片首先满足ISO TS16949、AEC-Q100两个车规标准,也正在做ISO26262标准。另外,汽车市场比消费市场和工业市场有一些差异化的需求,比如需要支持零下40度到零上125度的温度,还要求芯片在出现错误之后能够自己恢复和校准。因此我们用更好的封装材料保证其稳定性、测试的流程也更加复杂。基于之前设计波音飞机上使用的CPU的经验,我们对这些都很有经验,只是需要付出更多的时间和成本。”

    至于火热的安防市场,他们A轮的领投方是中电海康基金,这个基金背后是中电科技集团和中电海康集团。中电海康集团下属的海康威视是国内安防领域的龙头,他们在积极布局智能摄像头,NextVPU N171里的很多设计和功能也是为安防考虑。

    既然基于相同晶圆和裸片的N171能够满足汽车和工业市场的需求,那么消费级市场当然也是NextVPU不会错过的。据悉,N171的第一代芯片已经成功流片,测试的结果也非常好,现在正处于客户导入的阶段,距离正式的上市还有几个月时间。冯歆鹏透露目前的合作客户已经涵盖车载、安防和机器人,希望未来N171还能做第二代、第三代,持续做下去。

    在AI的热潮下,许多有经验有实力敏锐的大咖都开始了创业,他们希望能够在新的浪潮里发挥更大的价值,很显然NextVPU的团队就属于这一的创业团队。在技术、产品都能够比肩芯片巨头的情况下,芯片的实际落地更考验创业团队,在这个过程中会遇到很多意想不到的事情。相信我们都愿意看到NextVPU的产品能够不断迭代,为计算机视觉领域带来更好的AI芯片,也能够增强中国芯片的实力。

相关报告
  • 《芯云战略落地 天数智芯发布首款AI芯片》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2019-10-17
    • 2019年10月15日,数应于“芯”——2019天数智芯战略新品发布会于杭州·西湖国宾馆举行。发布会现场,全算力系统平台及解决方案提供商——天数智芯发布首个正式流片的高性能边缘端AI推理芯片——Iluvatar CoreX I AI芯片。该芯片的发布,标志着天数智芯真正将AI技术转化成产品,也意味着天数智芯从边缘到云端“芯云战略”已进入落地阶段,赋能企业实现数字化转型,助力行业智慧发展。 活动现场,杭州市西湖区区委副书记、区长高国飞,杭州市投资促进局局长 王翀、中国计算机学会理事长、清华高性能计算研究所所长导师郑纬民教授,中国电子信息产业发展研究院、赛迪工业和信息化研究院、信息化与软件产业研究所所长 张洪国,天数智芯创始人、董事长、CEO李云鹏,天数智芯联合创始人、COO赵汇等政府领导、业界专家以及行业人士出席了本次峰会,共同见证了新产品的发布,并在高端论坛环节,针对中国芯片产业未来发展之路、如何将AI技术正好的与行业需求相结合等话题进行了深入探讨。 EPU产品发布环节+合影留念 落地市场 Iluvatar CoreX I行业优势凸显 会上,天数智芯创始人、CEO李云鹏发表了主题演讲,着重阐释了天数智芯“应”时而动的发展战略——基于对行业的深入洞察,将自主研发能力与行业实际应用场景深度融合,凸显了其解决方案应用于客户实际业务的落地能力和行业价值。他表示:“创新、演进、价值、引领是天数智芯的核心优势。作为一家技术公司,天数智芯致力于为客户、产业合作伙伴赋能。在智能化时代,天数智芯立足提供完整的产品、系统和解决方案。而通过三年多的努力,天数智芯已经为多个行业不断赋能。“ 作为天数智芯首款自主研发芯片,Iluvatar CoreX I是一款能效全球领先的高性能边缘端AI推理芯片。据天数智芯副总裁梁斌介绍:“随着5G时代的带来,万物互联成为可能,海量数据的产生在给网络带来巨大压力的同时,也进一步把算力的需求推到了边缘端。天数智芯致力于解决云、边、端三个层的算力需求。”他表示,Iluvatar CoreX I正是为了应对这一需求而生的。它具备高精度、高算力、高兼容性、高完整性等优势,未来将能够在智能制造、智慧新零售、智慧医疗、智慧园区、智能垃圾分类等多个行业及领域的应用。 天数智芯现场发布的数据显示,Iluvatar CoreX I采用自研推理芯片架构,32核全自研核心并行加速,针对CNN定向优化,有效提升边缘AI推理算力。具有高精度高算力的明显优势,其单芯片算力可达4.8T@FP16 ,业界领先,针对竞品大于3倍领先,同时,还具备超低功耗,专注边缘端高性能场景,单芯片峰值功耗低至5W。在生态兼容性方面,该产品支持TensorFlow原生框架,使客户开发环境无痛迁移。同时,该产品具备高灵活性和强可扩展性,可支持X86、ARM、国产处理器等不同CPU主控芯片,可通过芯片、板卡级联方式灵活扩展AI算力。 此外,Iluvatar CoreX I还可搭载SkyDiscovery平台形成软硬一体的一站式解决方案,提供方式更灵活、功能更丰富的开发部署环境,完全可以根据开发型用户或行业应用客户,提供软硬件产品,或端到端完整解决方案。对此,李云鹏表示,“硬件芯片是一个传统行业,它的生命周期要求相当的长,我们不仅仅要支持今天火热以AI为代表的数据驱动应用,也要承载过去长期商务智能等大规模需求,还要应用未来可能发生的算法变化,提供通用性的算力支撑,这是天数智芯产品战略,软硬件结合系统产品。”事实上,在技术与产业的融合方面,该方案目前已经得到医疗、安防监控等行业客户的实际应用,实现了技术的商业化落地。 另外,为了更好的满足客户需求,天数智芯基于全新AI芯片开发了边缘计算系统板和PCIe加速卡两大方案,可分别针对行业应用和边缘服务器等进行智能升级。 高峰对话 AI芯更应潜心于市 构建生态,直线加速垂直细分领域将是我国AI芯片产业的发展方向,在这其中,既要认清不足之处,也要找出优势所在。那么,未来,AI芯的走势如何?在产业布局方面,技术方面将有何种发展?发布会“高峰论谈”环节,多位行业大咖共同就这些话题展开深度讨论。 论坛上,天数智芯联合创始人、COO赵汇表示:“半导体行业尤其是对底层的软硬件技术的需求量,我们认为会呈井喷式的增长,有大量研究表明在未来的五年之内,中国的AI计算芯片的市场,都会要突破两到三百亿美金的市场份额,其中当然有不同的细分领域,我相信在五年以后,天数智芯一定会在那个领域成为重要的玩家。“ 郑纬民教授则表示,芯片企业在成长过程中会面临技术上和资金上等多方面的压力。天数智芯今天发布的新品可以说是万里长征第一步。未来,还需要在生态和行业落地方面加大投入,将有非常好的前景。 实际上,作为智能数据时代基础软硬件系统拓荒者,天数智芯自成立以来,便致力于打造通用、标准、高性能的AI计算芯片,并以生态联动的方式,有机整合了高端芯片、基础软件和云服务三大基础业务,深耕以AI为代表的高性能计算市场,研发出了自主可控、国际一流的通用、标准、高性能计算软硬件基础平台。据悉,此次发布的AI芯片仅是天数智芯“芯云”战略中的支持边缘端的芯片产品,未来将发布聚焦中心云的核心芯片。
  • 《Groq芯片爆火给我国AI芯片产业发展的启示》

    • 来源专题:新一代信息技术
    • 编译者:isticzz2022
    • 发布时间:2024-03-04
    •     近日,硅谷初创企业Groq推出一款全新的AI芯片,声称实现了“地表最强推理”——在Groq上运行大模型的推理速度较英伟达GPU提高10倍甚至更高。该消息一出,迅速攻占了各大科技媒体板块头条。这样的推理速度无疑是AI芯片领域的一次技术飞跃,也为国产AI芯片企业如何突围发展带来一些新启示。 可专注特定场景建立“比较优势”     Groq芯片是一种LPU(语言处理单元),其优越的推理性能,再一次展示了专用AI芯片在特定场景中的应用价值。因此,参考Groq芯片在某个应用场景做到替代或者超过英伟达,将有可能是国产AI芯片现阶段一条行之有效的发展路径。 比如这款推理芯片主打一个“快”。常规生成式AI主要使用英伟达A100、H100芯片来进行训练与推理工作,大模型推理过程中等待是相对比较正常的事情,字符一个个蹦出,半天才能回答完毕。但在Groq的演示平台上,模型收到提示词后,几乎能够立即生成答案。这些答案不仅相对质量较高,还附有引用,长度更是达到数百个单词。更令人惊讶的是,它超过3/4的时间是用于搜索信息,而生成答案的时间却短到只有几分之一秒。     虽然暂时有着种种缺点,但是Groq芯片的优势点太为突出,足以在某些场景下完全替代英伟达,甚至能做得更为优秀,自然而然吸引了大量关注及认可。可以想象,在Groq芯片的成本控制优化至合适区间后,将会有大量实际应用场景前来适配和使用。 需重视应用场景中的“性能匹配”     Groq芯片凭借推理速度脱颖而出,充分说明了其性能与应用场景之间的强相关性,这也再次提醒我们应用场景的重要性。国产AI芯片产业应当重视在实际应用场景中的性能匹配度,并在这一基础上开展芯片的优化和创新。 语言推理赛道上,谁是冠军也尚未一锤定音。目前来看,Groq芯片综合素质仍有相当的不足。比如Groq芯片每张卡的内存是230MB,在运行Llama-2 70B模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。另外,Groq芯片目前只能适配少数几个大模型的推理工作,并且需要大量调试,广泛应用性还相对较差。其中的差距,也是中国企业的创新机会。     最终,一种AI芯片产品能否胜出,和多种因素密切相关,包括芯片本身的技术路线、产品推出的时间点,以及大模型的成熟度,等等。对于大模型来说,目前有观点认为大模型已经开始趋向稳定了,在这个基础上开发芯片是有机会的;也有观点认为大模型变化还很快,过两年大模型一改,所有的投入又得重新开始。这些争论还有待时间检验。 借助第三方评测体系“精准定位”     当前,美国政府对我国芯片出口管制的层层加码对国产AI芯片行业既是挑战又是机遇。从产业发展的整体视角来看,亟需构建一个中立、客观并具有权威性的评测体系,为各种芯片提供一个公平竞技的舞台和场景匹配的渠道。 在2023年世界人工智能大会上,人民日报社传播内容认知全国重点实验室(人民网)与中国电子技术标准化研究院共同发起的“智越计划”提出,要共同推动建立包含人工智能芯片性能评测、场景评测与综合评测的整体评估评测标准体系。其中的场景评测就是测试不同人工智能应用场景中各款芯片的实际使用效果。     “智越计划”将最终形成针对特定应用场景的综合报告和产品推荐目录,从而助力优化市场供需匹配,为政府、企业和研究机构建设智算中心提供芯片选型的重要参考和决策依据。     随着AI技术的飞速进步,市场对芯片产品的性能、稳定性和适用性有了更高要求。一个科学完善的评测体系将有效地指引企业研发方向,推动生态的繁荣发展和行业的整体进步。