《前瞻 | AI革命时代的HPC系统及芯片发展五大趋势》

  • 来源专题:光电情报网信息监测服务平台
  • 编译者: husisi
  • 发布时间:2023-03-06
  • 当前,以ChatGPT为代表的生成式人工智能应用风头无两,正在全球科技巨头间掀起新一轮的技术竞赛。在很多人看来,ChatGPT的上线或可被视作一次新产业革命的引爆点,而这个引爆点之所以能出现,则离不开背后的高性能计算与大数据基础设施。

    ChatGPT基于Open AI公司的GPT-3系列语言大模型来实现,GPT(Generative Pre-trained Transformer)即生成式预训练转换模型,是一种基于互联网可用数据训练的文本生成深度学习模型。

    为了实现和人类可比拟的语言交互和语言组织能力,GPT-3的参数达到1750亿个,相比之下,2018年推出的GPT-1,参数为1.17亿个,而2019年推出的GPT-2参数则达到15亿个,量变最终将引发质变,参数规模的飞速膨胀,对支撑GPT运行的硬件系统提出了越来越高的要求,对于类似GPT这样的大模型,没有高性能硬件支撑,根本无法去实现与部署,更不要说随着新数据的涌入来迭代了。

    所以,在众厂商纷纷宣布加码大模型AI投入时,有人断言,新一轮AI竞赛鹿死谁手还很难说,但高性能计算(HPC)系统中的高算力芯片、高带宽互连芯片和存储芯片一定是赢家。

    HPC及其核心芯片发展趋势

    那么,高性能计算要如何发展才能更好地支持新一波人工智能发展浪潮?而人工智能将如何影响到高性能计算本身呢?有如下几点,可供探讨。

    第一,高性能计算与人工智能相得益彰。人工智能的每一次高速发展,都离不开背后硬件基础设施的支持,而高速发展的AI又对硬件基础设施提出了更高的要求,激励芯片或系统性能成倍上升。

    在Open AI 2018年发布的报告中,对自2012至2018年人工智能训练对算力的需求超过30万倍,算力需求平均每3.5个月翻一番,这给芯片及硬件系统更新换代带来极大压力,因为按摩尔定律的性能升级速度,已经不能满足AI训练对芯片性能的需求增长速度了。

    为了打破性能瓶颈,新思科技提出了SysMoore开发方法学,通过全系统优化,有效释放了性能提升潜力。

    反过来,AI能力也在提升芯片开发效率,帮助开发者设计出性能更出色的芯片。例如,通过应用新思科技的DSO.ai工具,开发者将一款HPC处理器的运行频率提高了100Mz,而开发时间缩短了一半,整个团队的产出效率提升至原来的三倍。

    第二,HPC芯片性能提升方式从平面扩展转变为立体增长。多晶片系统(Multi-Die System)正在成为HPC芯片的主要发展潮流,从HPC的系统角度来看,采用先进封装技术将不同芯片封装在一起的方式,比PCB互连能大幅提升系统性能,因而HPC芯片在实现上,2.5D封装与3D封装的设计将越来越多。

    而由于成熟的接口IP可以直接以芯粒(Chiplet)方式与计算内核进行拼接,多晶片系统开发方式还可以有效保证良率,加快开发效率。

    多晶片系统的实现,需要设计方法学的更新,以实现高带宽、低延迟、低功耗和无差错工作的片间接口,多晶片系统的片间接口技术对于数据中心与边缘设备的快速、可靠的数据传输至关重要。

    采用先进封装技术将芯片进行立体堆叠,为芯片性能提升打开了无限可能,但也需要更强的EDA工具、设计方法学和IP,来处理多晶片系统中的异构集成、互连和封装问题。此外,随着数据中心互连技术的发展,开发者还需要具备硅光学等领域的专业知识和技术。

    新思科技的3DIC Compiler是一个高效易用的多晶片系统设计实现平台,可以为各种不同工艺制造的芯粒拼接堆叠提供完整的开发环境。

    例如,从多晶片系统项目启动时,开发者就需要用3DIC Compiler对多晶片系统进行功能划分,将整体设计分解为多个芯粒,接下来,可以用3DIC Compiler进行早期版图规划和基于封装的信号完整性分析,以实现更好的片间连接性能和更优的功耗表现。

    第三,边缘计算设备将不断进步迭代。人工智能的训练发生在数据中心,但推理或数据收集都离不开边缘设备。

    在人工智能应用中,对边缘设备的延迟要求越来越高,希望能进一步减少边缘设备数据处理和传输延迟,这就要求优化边缘设备主芯片的数据传输速度和效率。而边缘设备数量众多,因而在芯片层面能够降低功耗的话,将对整个云加边缘体系的节能降耗贡献极大。

    所以,边缘端芯片需要强大的仿真和验证工具、功耗和热分析功能、设计布局的智能实施,以及一系列关键功能和接口的认证IP模块,新思科技可以为开发者提供从边缘到云端可应用的基础IP、接口IP、安全IP和处理器IP,优化实现高性能、低延迟和低功耗,同时支持先进的工艺技术。

    第四,从信息安全、可靠性和运营成本等考虑,HPC芯片需要全生命周期管理。HPC系统规模巨大,运营成本高昂,可以处理PB乃至ZB级别的数据,可以实时运行大模型。这种级别的系统一旦出现故障,由于业务暂停造成的经济损失,数字会十分惊人。

    所以,一个好的HPC系统,应该具备卓越的可靠性、可用性和服务能力,而要做到这一点,系统角度可以通过冗余设计来增加可靠性,但更重要的则是从芯片层级来减少故障率。

    在芯片层级减少系统的故障率,就需要用到新思科技的硅生命周期管理(Silicon Lifecycle Management,SLM )的理念。

    SLM通过内置IP来收集芯片运行中的各种参数,并将芯片运行数据传输至指定位置进行分析和跟踪,从而让系统可以实时监控各个核心芯片的运行状况,为系统建立起芯片健康状况跟踪图,从而更好地预测和预防故障的发生,最终实现故障率降低和最小化故障损失。

    第五,可持续发展是HPC产业长期繁荣的基础。由于规模巨大,HPC系统能耗惊人,专家预测,到2030年,仅数据中心用电量将占到全球总用电量的3%至7%,不少区域甚至抵制建设数据中心,以免因其耗能巨大而导致当地环境恶化。所以,如何有效解决HPC/数据中心能耗和散热问题,已经成为其能否可持续发展的关键。

    在新思科技为HPC/数据中心提供的完整解决方案中,处处体现了节能降耗的理念。例如,通过低功耗设计方法学和功耗优化过的IP核来实现HPC芯片的整体功耗优化,从而降低HPC系统能耗,有效降低系统功耗,而新思科技各种高效率开发、仿真和验证工具,大幅降低了研发一款芯片的总体用时和资源占用,则是从更广泛角度上为可持续发展做出的贡献。

    总结

    随着互联网与人工智能技术的发展,HPC产业的重要性与日俱增,大数据与大数据模型的应用,都对HPC系统的性能与能耗提出了更高要求,只有从芯片层级出发来对HPC系统进行优化,才能真正让HPC系统性能不断升级,能效持续优化,走上真正的可持续发展之路。

相关报告
  • 《前瞻 | 展望2023年光通信发展十大趋势》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2023-01-29
    • 趋势一:干线400G商用元年,2023年有望规模增长 400G将成为未来十年光网络大平台,如100G一样会统治光通信的又一新时代。2023年长距离400G技术会从幕后走到台前,逐步商用,主流的PM QPSK(128Gbaud)和16QAM(107Gbaud)方案各有所长,将呈现双雄对决格局,未来将融合统一。 趋势二:全光网进一步发展,OXC向更高维度演进 全光网是建设“网络强国”焦点,OXC是全光网发展核心。为应对节点规模的持续扩大,网络骨干节点从传统ROADM向OXC升级,WSS维度将向32维以上更高维度演进,城域网络小型化OXC设备将进一步普及。 趋势三:新型光纤不断优化,长距传输优势凸显 大道行致远,新型光纤将极大释放400G传输系统潜力。超低损G.654.E光纤对 400G bit/s及以上超高速长距传输性能提升明显,2023年商用规模将进一步加大。空芯光纤、多模光纤等新技术不断涌现,持续提升光通信传输性能。 趋势四:C+L扩展传输即将走向商用,多波段、SDM等技术成为下一研究热点 采用C+L 波段扩展提升400G传输系统单纤容量成为业内共识。2023年C+L波段扩展将从试点走向商用,并带动产业链上游光器件技术升级。未来800G bit/s、1T bit/s以上更高速率WDM系统单纤容量的提升,将推动S+C+L多波段、空分复用等新技术研究。 趋势五:全光网低时延、确定性需求驱动下,OSU与SPN小颗粒方案齐头并进 OSU和SPN切片构建低时延、确定性全光网,将成为网络差异化承载和商业高价值所在。两种技术将时延作为重要优化目标,提供兆级精细化动态带宽无损调整,实现多种业务灵活接入和硬隔离保障,在运营商专线业务承载及行业推广应用上保持齐头并进。 趋势六:网络节点向集约化发展,集成度从器件到系统全面演进 硅光及半导体封装技术演进,将促进整机设备集成度从器件到系统全面演进。单波速率及系统容量增长促使网络节点业务接入和交叉调度面向集约化发展,硅光集成、CPO及3D共封装等技术推广应用,促进核心芯片、光模块更小封装演进与能耗比持续提升。 趋势七:协同管控是运营商网络实现开放解耦的有效手段 对于开放解耦既不可高估短期收益,也不可低估长期价值。对于场景复杂且存量巨大的运营商网络,需重点考量全生命周期总体TCO。在管控领域通过标准化北向及SC-DC一体化编排拉通、能力开放,是实现运营商网络能力与价值开放的有效手段。 趋势八:引入数字孪生,推动传统光网络向智慧光网演进 数字孪生与光网络传统技术交叉融合,是智慧化、数字化演进必然趋势。光纤传感、光层数字化等技术的应用,实现了对光网络内外部环境状态的精准感知与镜像仿真预测,有利于提升规、建、维、优全生命周期能力和效率。 趋势九:全光网低功耗优势明显,三大路径支撑绿色可持续发展 节能减排是大势所趋,全光网需深化低碳发展路径。以全光接入、全光传输和全光交换三大典型应用场景为代表的全光网络,较之传统电域信号处理节能降耗效果突出。芯片制程工艺提升、器件封装工艺改进以及系统节能降耗三大路径,将保证全光网络绿色低碳优势持续领先。 趋势十:网络安全重要性凸显,光网络构建全面安全体系 光网络安全技术需持续精进,构建多重安全保障。光网络需要从光纤链路、网元设备、网络架构、管控系统和供应链国产化等五大维度,持续开展理论研究创新与实践验证,精益求精构建全面安全体系。
  • 《前瞻 | 2023人工智能的五大趋势》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2023-03-15
    • 随着 2022 年世界形势的不断变化,一些技术趋势被搁置,而另一些则加速发展。 对于许多组织而言,人工智能被视为许多不确定性的解决方案,可带来更高的效率、差异化、自动化和更低的成本。 2023年,从生成式人工智能到量子机器学习,这些趋势正在袭来。 一、生成式AI 机器学习解决方案,正在引领新一代的产品和服务。但是,到目前为止,人工智能主要应用于数据驱动和分析工作流程。创造力和构思被认为非人工智能的能力。 但是,最近出现的生成式人工智能(GenAI)以及 StableDiffusion 和 ChatGPT 等程序促使这种情况发生了变化。GenAI是AI模型的新兴前沿,它在内容媒体如文本、图像、音频、视频的大型数据集上进行训练,以创建新的文本、音频、图像等。 生成式人工智能的主要特征是,它不会复制训练它的现有数据,因此并不局限于。这使得它对于文案等任务特别有用,在这些任务中,系统可以生成新的类似人类的文本版本,而不仅仅是源文本的字面副本。 在金融领域,生成式人工智能正被领先的银行机构用于将复杂的金融流程自动化,例如风险管理。通过生成神经网络,可以创建对预测金融市场未来有用的经济场景。 自2020年以来,生成式人工智能领域的风险投资增长了425%,去年更是达到了21亿美元。因此,尽管大多数人都在谈论生成式人工智能,但2022年只是一个开始。 二、量子机器学习 量子机器学习是一个相对较新的领域。虽然从上世纪90年代中期开始就有关于这一主题的研究论文公开发表,但在过去五六年,量子机器学习才真正开始吸引科学界的注意力。 目前量子机器学习这个行业正蓬勃发展,但是对不同的研究者,具体的“量子机器学习”的定义可能有所不同。量子机器学习一般指的是利用量子设备来运行某些机器学习算法,力求达到或者超过类似的经典机器学习算法的功能。 虽然机器学习算法用于计算大量数据,但量子机器学习是专门的量子系统,用于提高程序中算法执行的计算和数据存储速度。 到2030年,可能只有大约2000到5000台量子计算机投入使用,而能够处理最复杂问题的量子计算机可能要到2035年或更晚的时候才会出现,但世界各地的研究人员一直致力于推动技术的发展。 三、可解释人工智能 可解释的人工智能(XAI),或可解释的人工智能,或可解释的机器学习(XML),是指人类可以理解人工智能做出的决定或预测的人工智能(AI)。 它与机器学习中的黑匣子概念形成对比,在机器学习中,即使其设计者也无法解释为什么人工智能会得出一个特定的决定。 通过完善人工智能系统用户的心智模型,拆除他们的错误观念,XAI有望帮助用户更有效地执行。XAI可能是对社会解释权的实施。即使没有法律权利或监管要求,XAI也是相关的。 例如,XAI可以改善产品或服务的用户体验,帮助终端用户相信人工智能正在做出好的决定。这样一来,XAI的目的是解释已经做了什么,现在做了什么,接下来会做什么,并揭开行动所基于的信息。 四、人工智能编码助手 人工智能(AI)编码助手和开发者工具在2023年变得越来越复杂和强大。 AI编码助手是帮助程序员编写、调试和优化代码的工具。这些工具有潜力通过将许多繁琐和耗时的编码任务自动化来提高软件开发的效率和生产力。 AI编码助手具有巨大的潜力,它们很可能成为软件开发过程中的重要工具。 五、AI医疗保健 AI医疗的高光时刻,是在年抗击新冠肺炎时期,症预测、智能测温、智能随访、辅助诊断、医疗机器人等应用,让AI医疗在抗疫期间大放异彩,不只提升了自身的行业认知,更切实提升了防控效率和保障了人身安全。 中国人工智能医疗顶层设计、商业模式、技术模式日趋成熟,投融资市场活跃,未来中国人工智能医疗行业将得到进一步发展。 据调查AI医生,在整个实验过程中,人类参与手术的比例约为20%,剩下的80%由AI自主完成。结果发现,缝合线的间距和深度差异,小于专业外科医生或不使用人工智能的机器人执行的情况。 日经预测,将来AI机器人将能够处理所有手术阶段。 人工智能也被用于提高药物发掘和开发的有效性。截至2022年8月,已有23种人工智能驱动的候选药物进入临床试验。毕竟,临床试验是一个漫长的过程,可能需要10到15年,耗资数十亿美元。