《生成式人工智能(GenAI)——帮助优化全球功率最密集的计算应用》

  • 来源专题:人工智能
  • 编译者: 高楠
  • 发布时间:2024-08-19
  • 业界需要一种新的供电架构来控制生成式人工智能训练模型的能源消耗   

          训练生成式人工智能(GenAI)神经网络模型通常需要花费数月的时间,数千个基于GPU并包含数十亿个晶体管的处理器、高带宽SDRAM和每秒数太比特的光网络交换机要同时连续运行。虽然人工智能有望带来人类生产力的飞跃,但其运行时能耗巨大,所以导致温室气体的排放也显著增加。据《纽约时报》报道,到2027年,人工智能服务器每年的用电量将达到85至134太瓦时,大致相当于阿根廷一年的用电量。为了应对日益加剧的能耗挑战,AI处理器的供电网络经历了多代的发展。这种全面的演进发展涉及电路架构、电源转换拓扑、材料科学、封装和机械/热工程方面的创新。  

            生成式人工智能训练处理器的供电方案负载点模式和分比式模式的演变:

            从2020年到2022年,热设计功率(TDP)几乎翻了一番,从400W增加到了700W。TDP指标是指生成式人工智能训练应用中GPU引擎的连续功耗。自2022年起,半导体行业的TDP水平不断攀升,到了2024年3月,市场上甚至出现了一款TDP高达1000W的GPU。

       图1:基于GPU的生成式人工智能训练处理器芯片复合体,加速器模块(AM)上安装有高带宽存储器(HBM)

           用于生成式人工智能训练的处理器复合体集成了一个GPU或ASIC芯片,以及六到八个高带宽存储器(HBM)芯片。采用4纳米CMOS 工艺的GPU通常以0.65V的内核VDD运行,可能包含1000亿或更多的晶体管。HBM提供144GB的存储容量,其工作电压一般为1.1V或1.2V。该处理器的一个关键供电特性与人工神经网络算法负载有关。对比处于空闲状态的GPU和算法满载状态的GPU,瞬态电流消耗(dI/dt)差别可能非常大,可能达到每微秒2000安培或更多。此外,该处理器不能容忍较大的电源电压下冲或过冲幅值;这些负载阶跃瞬变必须限制在标称VDD的10%以内。设计用于生成式人工智能训练处理器的供电解决方案时,由于这些动态操作条件的原因,峰值电流输送能力通常设计为连续电流输送能力的两倍,峰值事件通常持续数十毫秒(图1)。  

           对于CPU、FPGA、网络交换机处理器以及现在的AI训练和推理芯片发展最重要的供电架构是负载点(PoL)方法。相较于传统的多相并联电源架构,分比式PoL电源架构实现了更高的功率和电流密度。这种电源架构借鉴了理想变压器的"匝数比"概念,通过分压实现电流倍增。电流倍增的可扩展性使我们能够根据不同的输出电压和电流需求,开发一系列全面的PoL转换器。这对客户来说至关重要,因为高级AI训练处理器的需求正快速变化。

     

                         图2:分比式电源架构可以提供超过1000安培的大电流,并使供电网络的电阻降低到1/20

           生成式人工智能电源系统设计面临的主要挑战包括:  

    ● 很高的电流输送能力,范围从500安培到2000安培  

    ● 负载需要出色的动态性能  

    ● PDN的损耗和阻抗较大  

    ● 48V母线基础架构的标准化使用,需要从48V转换到1V以下的能力  

           要解决这种大电流和高密度负载点(PoL)问题,需要采用不同的方法。先进的分比式电源架构将稳压和变压/电流倍增功能进行了分解,可将这些供电级放置在最佳位置,从而达到最高的效率和功率/电流密度。当输入电压(VIN)等于输出电压(VOUT)时,稳压器的效率最高,随着输入输出比的增加,效率逐渐降低。在36至60V的典型输入电压范围内,最佳输出母线电压将是48V,而不是中间母线架构(IBA)中常见的传统12V母线电压。48V输出母线所需的电流是12V母线的四分之一(P=VI),而PDN的损耗是电流的平方(P= I2R),这意味着损耗降低至原来的 1/16。因此,先安装稳压器并将其调节至48V输出,可以实现最高的效率。稳压器还必须接受有时低于48V的输入电压,这就需要一个降压-升压的功能来满足这一设计需求。一旦输入电压得到了稳压,下一步便是将48V转换为1V。在需要为1V负载供电的情况下,最佳变压比为48:1。在这种情况下,稳压器将输入电压降压或升压到48V输出,再由变压器将电压从48降至1V。降压变压器以相同的比率加大电流,因此变压器组件也可以称为电流倍增器。在这种情况下,1安培的输入电流将倍增至48安培的输出电流。为了最大限度地减少大电流输出的PDN损耗,电流倍增器必须小巧,以便尽可能靠近负载放置。  PRM稳压器和VTM/MCM模块化电流倍增器结合在一起,构成Vicor分比式电源架构。这两个器件相互合作,各司其职,实现完整的DC-DC转换功能。  PRM通过调制未稳压的输入电源提供稳压输出电压,即"分比式母线电压"。该母线供电给VTM,由VTM将分比式母线电压转换为负载所需的电平。  

           与IBA不同,FPA不通过串联电感器从中间母线电压降压至PoL。FPA不通过降低中间母线电压来平均电压,而是使用电流增益为1:48或更高的高压稳压和电流倍增器模块,以提供更高的效率、更小的尺寸、更快的响应和1000安培及以上的可扩展性(图2)。

    垂直放置PoL转换器减少功耗耗散 

           在前几代大电流生成式人工智能处理器电源架构中,PoL转换器被放在处理器复合体的横向(旁边)位置。由于铜的电阻率和PCB上的走线长度,横向放置的PoL供电网络(PDN)的集总阻抗相当高,可能达到200μΩ或更高。随着生成式人工智能训练处理器的连续电流需求增加到1000安培,这意味着PCB本身就会消耗掉200瓦的功率。考虑到在AI超级计算机中用于大型语言模型训练的加速器模块(AM)多达数千个,而且几乎从不断电,通常会持续运行10年或更长时间,这200瓦的功率损耗在整体上变得非常庞大。认识到这种能源浪费后,AI计算机设计师已经开始评估采用垂直供电(VPD)结构,将PoL转换器直接放置在处理器复合体的下方。在垂直供电网络中,集总阻抗可能降至10μΩ或更低,这意味着在内核电压域1000安培的连续电流下,只会消耗10瓦的功率。也就是说,通过将PoL转换器从横向放置改为纵向放置,PCB的功耗减少了200-10=190瓦(WPCB)(图3)。

             图3 生成式人工智能加速模块从横向(顶部)供电改为纵向(背部)供电,可将PDN损耗降低至1/20

           VPD的另一个优点是降低了GPU芯片表面电压梯度,这也有助于节省电力。如前所述,典型的4纳米CMOS GPU的标称工作电压为0.65VDD。使用横向供电时,将电源提供给处理器复合体的四边,由于集成电路的配电阻抗较高(通常使用电阻率高于铜的铝导体),可能需要0.70V的电压,才能确保GPU芯片中心的电压达到标称值0.65V。而采用纵向供电时,可以确保整个芯片表面的电压为0.65V。0.70-0.65=50mV,这个差值乘以1000安培,可额外节省50瓦(WVDD)的功率。在本例中,节省的总功率为190 WPCB + 50 WVDD = 240瓦(图4)。根据未来几年公共领域对加速器模块(AM)需求的预测(2024年超过250万件),以及对电力成本的合理估计(每兆瓦时75美元),每个AM节省240W电力,到2026年将在全球范围内实现太瓦时的电力节省,相当于每年节约数十亿美元的电力运营成本,而且根据可再生能源的使用比例,每年还能永久性地减少数百万吨的二氧化碳排放。

          图4:使用VPD时,处理器芯片的表面电压均匀,有助于最大限度地提高计算性能,同时最小化功率损耗

    遏制失控的生成式人工智能功耗  

           Vicor正引领生成式人工智能供电技术的创新浪潮。他们提供的分比式负载点转换器解决方案有助于提升生成式人工智能处理器的功效,使生成式人工智能的功耗与社会层面的环境保护和节能目标相一致。Vicor持续推动电源架构的创新,并开发先进的新产品,致力于解决生成式人工智能模型训练带来的功耗增加问题。通过采用先进的分比式电流倍增器方法进行负载点DC-DC转换,就可以充分发挥生成式人工智能优势,同时有效控制全球范围内的能源消耗。

    作者:杨周 Vicor中国应用工程师

  • 原文来源:http://article.cechina.cn/24/0816/12/20240816120507.htm
相关报告
  • 《2月全球人工智能领域新看点》

    • 来源专题:人工智能
    • 编译者:高楠
    • 发布时间:2025-03-05
    • 在刚刚过去的2月,全球人工智能(AI)领域继续呈现强劲的发展势头。   全球数家科技公司竞相发布其AI模型的最新版本,这些新模型将为用户带来更加智能的使用体验,为多个行业注入新动能;人工智能行动峰会在巴黎召开,旨在建立一个包容而高效的AI国际治理框架;AI与其他领域的融合更加紧密,特别是在促进科研创新方面展现出巨大的潜能与前景。   更快更聪明 新AI模型竞相涌现   美国知名企业家埃隆·马斯克旗下的xAI公司2月17日发布最新人工智能模型Grok 3,该模型引入了包括图像分析和问答在内的高级功能,支持社交媒体平台X上各种功能。马斯克称,Grok 3使用了拥有约20万个GPU的大型数据中心训练,其计算能力是上一代版本Grok 2的10倍,被称为“地球上最聪明的人工智能”。   在发布会上的功能演示中,Grok 3模型及Grok 3 mini版本在数学、科学和编程基准测试上超越了现有主流模型。Grok 3于2月23日上线语音模式。   法国米斯特拉尔人工智能公司2月6日发布最新版本的开源人工智能助手Le Chat,可帮助用户获取新闻、管理日常生活、跟踪项目、上传和总结文档等。新版Le Chat增加的数个功能中最引人注目的是“速答”功能。据该公司介绍,新版Le Chat能以每秒1000个单词的速度生成答案。   美国谷歌公司2月5日宣布推出多个“双子座2.0”系列模型的优化版本,其中包括“双子座2.0闪电”模型以及该模型的经济版和实验版,所有这些模型都将提供多模态输入与文本输出。据谷歌官方博客介绍,此次更新进一步增强了“双子座2.0”系列模型在多模态推理、编码性能和处理复杂提示等方面的能力,并提升了成本效益。   更多应用 AI跨界融合新动向   人工智能技术不仅自身在快速发展,而且与其他领域的融合也更加紧密,特别在促进科研创新方面展现出巨大的潜能与前景。   美国弧形研究所2月19日宣布,该研究机构与美国芯片制造商英伟达公司、美国斯坦福大学等机构的科研人员共同开发的AI生物学模型Evo 2正式发布。其发布的公报说,在前一代模型Evo 1的基础上,Evo 2发展成为目前生物学领域规模最大的AI模型。该模型基于超过12.8万个基因组数据开展训练,这些基因组涉及人类、动植物及真核生物,包括了9.3万亿个核苷酸。   据介绍,Evo 2可用于多种任务,它能识别影响蛋白质功能和生物体适应性的基因变化。例如,在针对与乳腺癌相关的BRCA1基因变体的测试中,Evo 2在预测哪些突变是良性突变、哪些是潜在致病突变方面达到了90%以上的准确率。这将有助于节省大量用于细胞或动物实验的时间和研究资金,协助找到人类疾病的遗传原因来加速新药研发。Evo 2还可用于设计新的生物工具或治疗方法。   美国华盛顿大学等机构的研究人员2月13日在美国《科学》杂志上发表论文说,他们利用AI设计出了具有天然酶关键特征、可介导多步反应的全新的酶。业内专家评价其为“酶工程领域的一个里程碑”。   更好造福人类 巴黎峰会推动AI治理   AI不仅是一场技术革命,它还可能深刻改变社会结构,包括知识获取、就业、信息传播方式等。伴随技术的发展,AI在安全和可信度等方面也存在风险。当前,全球AI治理格局分散,难以形成有效的全球规则。在此背景下,加强AI全球治理合作迫在眉睫。2月10日至11日,人工智能行动峰会在法国巴黎召开。峰会旨在建立一个包容而高效的AI国际治理框架。   如何让AI更好地造福人类,实现智能向善,是峰会期间的热门话题。一个主流声音是推动智能向善,确保人工智能发展始终符合人类的根本利益和价值标准,必须共推发展、共护安全、共享成果。   包括法国、中国、印度、欧盟在内的多个国家和国际组织在会上签署了《关于发展包容、可持续的人工智能造福人类与地球的声明》。声明说,峰会凸显了加强人工智能生态系统多样性的重要性,各方确认了一些主要优先事项,包括促进人工智能的可及性以减少数字鸿沟,确保人工智能开放、包容、透明、合乎道德、安全、可靠且值得信赖,鼓励有利于未来劳动力市场和可持续发展的人工智能部署,加强国际协调治理等。   峰会还着重强调推动AI资源开放,降低发展中国家获取AI技术的门槛。在这方面,中国的大语言模型表现突出,以深度求索(DeepSeek)为代表,展现出开源、低能耗、透明的特点,成为普惠全球的新典范。法国《世界报》报道,DeepSeek依靠更少的算力和数据消耗,以及更低的训练成本,表现卓越,足以与美国最新产品相媲美。这对于促进其他国家AI发展,推动AI运用的包容普惠性,具有重要意义。                            新华社北京3月1日电    (责编:赵光霞、胡永秋)
  • 《云计算与生成式人工智能:协同的未来》

    • 来源专题:人工智能
    • 编译者:高楠
    • 发布时间:2024-09-20
    • 在数字化转型加速的今天,云计算和生成式人工智能(GAI)正逐步成为推动企业创新的两大关键技术。这两者的协同作用,不仅提升了计算能力,还带来了全新的数据处理与生成方式。通过云计算的强大基础设施和生成式人工智能的突破性创新,企业能够以更低的成本、更高的效率实现智能化发展。本文将探讨云计算与生成式人工智能如何协同运作,赋能各行业的技术革新,以及它们如何共同推动未来智能社会的构建。 云计算的角色:赋能 生成式人工智能的基础       云计算作为一种基于网络的计算模式,提供了弹性扩展、按需获取资源和大规模数据处理的能力,成为 生成式人工智能发展的核心基础。 1、计算资源的弹性       生成式人工智能模型,如GPT-4、DALL-E等,需要大量计算资源来进行训练和推理。训练这些模型往往需要处理PB级数据,并且涉及数千甚至数万的GPU核心。而云计算平台提供的弹性计算能力,能够根据模型的复杂性进行动态资源调配。这种弹性使得企业无需自行构建昂贵的数据中心,而是通过云平台按需扩展其计算能力,从而显著降低了初始投资和维护成本。 2、数据存储和管理       生成式AI模型依赖于大规模的数据集来进行训练,包括图像、文本、视频等多模态数据。云存储能够有效管理这些大数据集,提供高效的数据分发和访问机制,并通过分布式存储解决本地存储的局限性。此外,云服务提供商通常具备成熟的数据安全和合规解决方案,这对于行业如金融、医疗等数据敏感型领域尤为关键。 3、可扩展的开发环境       云平台为AI开发者提供了开箱即用的开发工具和API,简化了模型训练、调优和部署的流程。例如,AWS的SageMaker、Google Cloud的AI Platform和Microsoft Azure的AI服务,均为开发人员提供了强大的工具链。这种无缝的云计算开发环境不仅加快了生成式AI的开发周期,还降低了技术门槛,促使更多企业能够利用AI技术进行创新。 生成式AI的革命:云计算的新动能       生成式AI的快速进步不仅改变了AI技术的应用方式,也为云计算带来了新的动能和发展机遇。通过生成式AI,云计算正在从传统的IaaS、PaaS模式,向更智能化和自动化的服务层次转型。 1、自动化创新与智能化服务       生成式AI的出现,使得云服务的创新能力得到提升。例如,在数据分析领域,生成式AI可以自动生成复杂的报告、预测市场趋势、或根据历史数据创建新的商业方案。这大幅减少了人工干预和分析时间,使得企业决策更为快速精准。 在云端,生成式AI还可以通过自动化的方式优化资源分配、预测故障和瓶颈。例如,AI可以预测何时需要更多的计算资源,或识别不常使用的资源并进行优化分配。这种智能化的资源管理不仅提升了云计算平台的效率,也极大地降低了运维成本。 2、AI驱动的定制化云服务       生成式AI的个性化和定制化能力,可以为企业打造更加灵活的云解决方案。例如,AI可以根据客户需求,生成特定的代码、API或架构建议,从而定制适合不同业务需求的云基础设施。这种定制化能力将使企业更好地利用云资源,从而提升运营效率和市场竞争力。 3、跨行业的多模态应用       生成式AI的核心价值在于其能够生成新的内容,从而带动多个行业的应用创新。例如,在媒体和娱乐领域,AI可以生成逼真的虚拟角色、场景甚至完整的影视剧本,而这些生成任务都可以在云端完成,实现高效的分布式渲染和内容制作。 在医疗领域,生成式AI能够通过分析大量医学图像和病例数据,生成个性化的诊断建议和治疗方案。而通过云平台,这些模型可以快速部署至全球各地的医疗机构,实现实时的诊疗支持。 协同的未来:云计算与生成式AI的深度融合       随着技术的不断进步,云计算与生成式AI的协同将更加深入,推动全新的业务模式与服务形态。 1、人工智能即服务(AIaaS)的兴起       随着生成式AI模型的复杂性不断增加,人工智能即服务(AIaaS)将成为未来云计算的重要模式。通过AIaaS,企业无需投入大量资源开发和维护AI模型,而是可以直接使用云提供的AI模型和服务。例如,生成文本、图像、视频的AI模型可以按需调用,从而极大地降低了开发难度。 2、生成式AI与边缘计算的融合       随着物联网(IoT)的普及,边缘计算的需求逐渐增加。未来,生成式AI可以通过云端训练模型,并在边缘设备上进行实时推理。通过这种云-边协同,生成式AI可以为智能设备提供本地化的生成能力,而无需将数据全部上传至云端。这将极大提高设备的响应速度,并降低数据传输成本。 3、跨领域的智能生态系统       云计算和生成式AI的协同发展将推动智能生态系统的形成,不同的企业、行业将通过AI技术共享数据、模型和服务。例如,在智能城市中,交通管理、环境监测、能源分配等多个系统可以通过云端的AI平台协同工作,实现全局优化和智能调度。 挑战与展望       尽管云计算与生成式AI的协同带来了巨大的机遇,但也面临一些挑战。 1、数据隐私与安全       生成式AI需要大量数据进行训练,而数据隐私和安全是不可忽视的问题。如何在保护用户隐私的同时,充分利用云计算和AI的优势,将成为未来的重要课题。 2、能源消耗与可持续性       生成式AI模型的训练和云计算的基础设施维护都需要大量能源消耗。未来,如何在提升AI计算能力的同时,减少碳排放和能源使用,是云计算和AI领域亟待解决的问题。 3、技术门槛与人才短缺       尽管生成式AI和云计算技术已经取得了长足进步,但其复杂性仍对企业的技术团队提出了较高要求。未来,行业需要更高效的工具、平台和培训资源,以降低技术门槛,培养更多的AI和云计算专业人才。 总结       云计算与生成式人工智能的协同不仅正在改变当前的技术格局,还将重新定义未来的业务形态和社会结构。通过两者的深度融合,企业可以获得更强大的计算能力、更高效的数据处理方式,以及更多样化的应用场景。然而,如何平衡技术创新与可持续发展,以及如何解决数据安全、能源消耗等问题,将成为未来行业需要共同面对的挑战。云计算和生成式AI的未来无疑充满潜力,它们的协同发展将为全球各行各业带来全新的商业模式和增长机会,推动人类社会向更加智能化、数字化的方向迈进。