人工智能加速和tinyML仍然是2024年嵌入式世界的主要主题,许多供应商在硬件和软件方面展示了新的人工智能能力。
Ambiq Apollo 510
Ambiq推出了适用于可穿戴设备和物联网设备的最新一代超低功耗微控制器。与Ambiq的上一代Apollo4相比,Apollo510可以实现10倍的延迟和一半的功耗。Apollo510基于Arm Cortex-M55内核,带有氦矢量单元,可以通过Ambiq的NeuralSpot人工智能工具链运行人工智能模型。Ambiq首席技术官Scott Hanson告诉《EE时报》,一项对客户用例的调查显示,几乎所有的用例都可以由带有额外内存的M55处理,因此Apollo 510配备了4 MB的片上NVM和3.75 MB的SRAM,但在大多数情况下,不需要NPU。Hanson说:“我的观点是在你应该担心NPU之前,模型和软件至少需要进行时间倍的优化。这个特殊的芯片没有NPU,这是我们与客户讨论后做出的决定,”他补充道。“坦率地说,你看到的很多NPU都有寻找问题解决方案。如果你与客户交谈,真正了解他们的需求,他们就不需要NPU。”Hanson表示,由于硬件问题,如窄内存总线与大而宽的MAC单元相比,当今许多NPU实现的利用率都很低。他补充道,NPU将出现在未来的Ambiq产品中,但与此同时,大多数Ambiq客户不想处理多核的复杂性。
NeuralSpot是Ambiq的人工智能工具链,配有优化的模型动物园和Ambiq自己的内核库,用于在其基于Cortex-M的产品上进行高效的人工智能推理。
Efinix Titanium Ti375
FPGA供应商Efinix展示了其第二代中低端FPGA家族Titanium。Efinix营销和业务发展副总裁Mark Oliver告诉《EE时报》,与上一代相比,钛已迁移到16纳米,以实现更低的功率和更小的占地面积,其技术可从35千个逻辑元件扩展到100万个逻辑元件,目前该家族中最大的部分为37.5千个。
Oliver说:“Titanium将我们带到了令人兴奋的地方,因为它将我们带进了一个占地面积,在功率、价格和性能方面都可以从实验室带到大批量开发。得益于人工智能,汽车等行业的边缘计算需求激增。人工智能应用的定制硅将需要3-5年的时间,耗资3000万美元,两个月后你的人工智能模型就会过时。”
在FPGA上开发定制设计可以最大限度地减少NRE和风险。人工智能处理器需要快速总线和实例化人工智能加速器的能力。对于自动驾驶,它们也需要具有确定性,因为你需要快速上市,并具有迭代模型的灵活性。“检查,检查,检查”,他说。Titanium Ti375具有PCIe接口、万兆以太网和双LPDDR4接口,可优化芯片上和芯片下的数据获取。现有的Titanium家族成员,如Titanium 180,可以进行tinyML加速,Efinix的软件堆栈能够从tinyML框架中获取原语,并为FPGA结构创建基于RISC-V的加速器设计。Oliver表示,375的加速器设计和模型可在Github上获得,但人工智能的完整软件工具链仍在建设中,并补充说,Efinix打算在适当的时候使Ti375有资格用于汽车应用。
NXP eIQ Toolchain
恩智浦人工智能总监Ali Ors告诉《EE时报》,虽然英伟达的Tao培训工具包现在可以为来自多个不同供应商的tinyML硬件优化模型,但恩智浦与Tao的集成更进一步。
模型与Tao一起在云中进行训练,然后针对微控制器等边缘设备进行优化。Ors说:“我们确实比单独运行两个工具并在它们之间传递数据更进一步。”。“我们在API级别进行了集成,因此我们的eIQ工具包的用户可以从我们的工具内部启动Tao工具包,查看库,选择模型,重新培训,进行所需的任何迁移学习,然后对其进行配置并将其从eIQ工具包直接部署到NXP设备。”Ors补充道,“这将允许单一环境的用户体验,这将使整个体验更容易。如今,实现是一个赌注,所以它关乎你能为用户带来多容易。这并没有真正简化流程,因为这不是一个简单的流程,但你要尽可能地简化它,并为用户提供尽可能多的分析输入,这是关键部分。”
恩智浦正在构建eIQ的分析功能,以向用户提供有价值的见解,包括他们的模型在边缘运行的情况,他们可以做些什么来提高效率并更好地利用硬件资源,包括恩智浦自己的中子NPU。这可能涉及量化、修剪和稀疏技术,以及建议替换任何不受支持的运算符,以避免回退到CPU。
下一代恩智浦中子NPU将包括更大的加速器以及相应的内存和数据移动优化。Ors表示,与此同时,该公司正在大力投资微控制器和实时交叉处理器的人工智能工具链。
Infineon PSoC Edge E8x
微控制器巨头英飞凌最近推出了其首款带有NPU的微控制器PSoC Edge E8x,该微控制器基于Arm Cortex-M55与Arm Ethos-U55 NPU相结合。英飞凌连接安全系统部门总裁Thomas Rosteck表示,PSoC Edge E8x是即将推出的NPU微控制器系列中的第一款。这将包括为音频等应用程序优化的设备。该公司还收购了tinyML工具链公司Imagimob。
Rosteck说,Arm的Ethos-U55仍然允许Infineon增加价值和差异化。他说:“像Arm这样的生态系统的好处是,它周围有一个由开发者组成的生态系统。我们正在从Arm那里获得核心和加速器,并围绕它构建一个芯片,一个解决方案。这不仅仅是两者之间的总线,你还可以做很多其他事情来提高效率。”
PSoC高性能和低功耗的结合证明了英飞凌对Arm IP的实施。
英飞凌的产品到系统战略意味着该公司在具体决策时同时考虑应用程序和系统的角度,例如工作负载的哪些部分在硬件中完成,哪些部分在软件中完成,以及安全等其他技术。英飞凌也在考虑在未来的设备上运行变压器,但仍处于研究阶段。
Devices and demos
在采用国产NPU IP的xG24无线微控制器取得成功的基础上,Silicon Labs推出了一款新版本xG26,具有双倍的闪存和双倍的RAM。Silicon实验室高级产品营销经理Matt Maupin表示,双倍的RAM对运行ML特别有用,尤其是在语音应用中。
STMicro去年为所有Cortex-M设备开放了NanoEdgeAI Studio autoML工具,但最新版本增加了对所有基于Cortex-M的Arduino板的支持。
瑞萨展示了在其RZ/V2H上运行的各种神经网络,这是其家族中拥有最大NPU实例DRP的部分。演示包括Yolox在一块小板上运行物体检测,无需风扇或任何冷却。在Hailo展台,客户iRider展示了其先进的电动自行车驾驶员辅助系统(ADAS),该系统使用Hailo-8在三个摄像头流上同时运行人工智能。这可以帮助骑自行车的人在交通中看到身后的安全,但也可以实现额外的安全功能,如当用户在人行道上骑自行车或不戴头盔时限制使用。
AMD在其带有NPU的Ryzen Embedded 8000工业处理器上启动了Llama2-7B,并以每秒2.5个代币的速度运行。