GPU无处不在的图形处理单元,可以说是当今最重要的计算技术。它使人工智能处理成为可能,但代价不可持续,巨大的功耗加剧了这种情况。最初构想的统治软件工程的范式是由在传统计算架构上执行的一系列指令组成的,该架构被称为冯·诺伊曼体系结构CPU。这种持久的处理架构只能执行严格可编码的工作。它不能处理任务,如识别物体或乐谱,或写一篇文章。这些任务被称为预测性人工智能和生成性人工智能,可以通过大型语言模型(LLM)处理,这些模型需要在时钟周期内处理数千亿(如果不是数万亿)个参数,远远超出了CPU的领域。
今天,大模型学习和推理是在配备有尖端GPU阵列的数据中心进行的。虽然这种方法有效,但它会导致收购/运营成本飙升和电力消耗螺旋式上升,从而可能使电网不堪重负。边缘推理则不同,它有望服务于工业、商业、医疗、教育和娱乐等不同领域中最大的AI应用市场。
在边缘执行推理时,功耗、成本和延迟不容忽视。高性能、低延迟、低成本和低功耗是边缘推理的关键属性。GPU最初是用于图形并行处理的,在执行AI算法时,可提供的计算能力会下降。在ChatGPT-3的使用情况下,效率下降到个位数。GPU供应商通过增加大量设备来解决这一限制,但代价是数据中心AI处理的能耗呈指数级增长。瓶颈在于内存和处理单元之间的数据传输。从历史上看,内存技术的进步并没有跟上处理逻辑的进步。随着时间的推移,由于内存无法以处理器所需的速率提供数据,这种差距导致了可用处理能力的下降。大多数时候,计算单元会等待数据可用,并且随着处理能力的增加而恶化。处理单元的计算能力越高,为它们提供数据的瓶颈就越大,这就是 20 世纪 90 年代中期出现的内存墙。为了缓解这个问题,创建了一个存储器层次结构。底层是速度较慢的主存储器,顶部是处理单元旁边的寄存器。在两者之间,是一系列容量较小、速度较快的存储器层,用于加速数据传输。虽然寄存器能够以所需的速率向计算单元提供数据,但它们的数量通常限制在数百个或最多几千个,而如今需要数百万个。
现在就需要一种打破内存墙的创新架构。一种建议是将所有分层缓存折叠成紧密耦合内存(TCM),其外观和行为类似于寄存器。从处理单元的角度来看,可以在时钟周期内的任何时间访问任何位置的数据。192兆字节的TCM大约相当于15亿个单比特寄存器。通过寄存器传输级 (RTL) 设计流程实现 192 兆字节的寄存器将是艰巨的,构成了重大的挑战。相反,高抽象级别上的设计实现流程将大大缩短并加速加速器的部署。如果结合 192 千兆字节的板载高带宽内存 (HBM),单个设备可以在单个芯片上完全运行 GPT-3,使其成为高效的实现。在处理 LLM 时,它将达到 50% 到 55% 的效率,比 GPU 大一个数量级以上。外部存储器和计算单元之间的数据传输急剧减少可能导致功耗大幅下降,每千兆次浮点运算约50瓦。同时,与GPU相比,它将使执行延迟减少10倍以上。更为关键的是,架构不应该被硬编码。相反,它应该是完全可编程和高度可扩展的。人工智能应用算法几乎每周都在发展。更频繁的变化仅限于对算法的性能、延迟、功耗等属性的微调,这些属性对成本有影响。定期地,全新的算法结构会淘汰旧版本。新的加速器架构应该能够适应上述所有方面,并允许在该领域进行更新和升级。这种完全可编程的方法还应该支持在逐层的基础上自动进行从4位到64位的整数或浮点数可配置计算量化,以适应广泛的应用。权值和数据的稀疏性也应该得到即时支持。从部署的角度来看,加速器可以作为主处理器的配套芯片,在用户可见的方案中运行。算法工程师可以像在主处理器上运行一样编写他们的算法,让编译器将加速器上运行的代码与主处理器上运行的代码分开。这种方法将简化和简化加速器的部署和使用模型。与在低级别运行的GPU驱动的数据流不同,这种想象中的架构中的数据流将在算法级别工作,通过使用MATLAB代码和图形进行读取,并在本地执行。这可能吗?可能像这样的设备比最先进的基于GPU的加速器快5到10倍,同时消耗其功率的一小部分,并具有显着较低的延迟,满足边缘AI推理的需求。毫无疑问,这将简化部署和使用,吸引大量科学家和工程师。