《英伟达推出两个全新AI解决方案硬件平台Blackwell GB200 NVL4和Hopper H200 NVL》

  • 来源专题:集成电路与量子信息
  • 发布时间:2024-11-20
  • 据国内外媒体11月19日报道,在SuperComputer 2024超算大会上,人工智能(AI)芯片大厂英伟达(NVIDIA)公布了一系列新产品、新技术,并正式推出了两个全新的AI解决方案硬件平台,一个是Blackwell GB200 NVL4,一个是Hopper H200 NVL。

    据介绍,英伟达GB200 NVL4是一个全新的模块,是基于原有的GB200 Grace Blackwell Superchip AI解决方案的更大扩展。GB200 NVL4模块是在更大的主板上配置两个Blackwell GB200 GPU,即拥有两个Grace CPU和4个Blackwell B200 GPU。该模块被设计为具有4-GPU NVLINK域和1.3T相干内存的单服务器解决方案。在性能方面,该模块将使模拟性能提高2.2倍,训练和推理性能提高1.8倍。英伟达的合作伙伴将在未来几个月内提供NVL4解决方案。


  • 原文来源:http://mp.weixin.qq.com/s?__biz=Mzg2NDgzNTQ4MA==&mid=2247764140&idx=4&sn=b09b229ea758e844da19f4fd638d6d65&scene=0
相关报告
  • 《英伟达发布性能飙升的下一代AI芯片NVIDIA HGX H200》

    • 来源专题:集成电路
    • 编译者:李衍
    • 发布时间:2023-12-04
    •     据官网11月13日报道,英伟达发布了下一代人工智能超级计算机芯片NVIDIA HGX H200,这些芯片将在深度学习和大型语言模型(LLM)方面发挥重要作用,比如 OpenAI 的 GPT-4。新芯片相比上一代有了显著的飞跃,将被用于数据中心和超级计算机,处理诸如天气和气候预测、药物发现、量子计算等任务。     该新型AI芯片是基于英伟达的“Hopper”架构的 HGX H200 GPU,是 H100 GPU 的继任者,也是该公司第一款使用 HBM3e 内存的芯片,这种内存速度更快,容量更大,能以每秒 4.8 TB 的速度提供 141GB 的内存,因此更适合大型语言模型。较前任AI芯片霸主 H100,H200的容量几乎是其两倍,带宽增加了 2.4 倍,性能直接提升了 60% 到 90%。     在人工智能方面,英伟达表示,HGX H200 在 Llama 2(700 亿参数 LLM)上的推理速度比 H100 快了一倍。HGX H200 将以 4 路和 8 路的配置提供,与 H100 系统中的软件和硬件兼容。它将适用于每一种类型的数据中心(本地、云、混合云和边缘),并由 Amazon Web Services、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 等部署,将于 2024 年第二季度推出。    英伟达还将多个HGX H200 GPU 和基于 Arm 的英伟达 Grace CPU 通过该公司的 NVLink-C2C 互连结合起来 ,打造出一款新型 AI 超级计算机产品NVIDIA DGX? GH200 。经过精心设计,其可处理大型推荐系统、生成式 AI 和图形分析领域的 TB 级模型,为超大 AI 模型提供具备线性扩展能力的大型共享内存空间,官方称其专为超级计算机设计,让科学家和研究人员能够通过加速运行 TB 级数据的复杂 AI 和 HPC 应用程序,来解决世界上最具挑战性的问题。GH200 将被用于全球研究中心、系统制造商和云提供商的 40 多台 AI 超级计算机,其中包括戴尔、Eviden、惠普企业(HPE)、联想、QCT 和 Supermicro。其中值得注意的是,HPE 的 Cray EX2500 超级计算机将使用四路 GH200,可扩展到数万个 Grace Hopper 超级芯片节点。
  • 《英伟达的新款 Blackwell GPU 可以训练包含数万亿参数的 AI 模型》

    • 来源专题:新一代信息技术
    • 编译者:isticzz2022
    • 发布时间:2024-03-20
    •       英伟达(Nvidia)目前最新、最快的GPU代号为Blackwell,它将在今年支持该公司的人工智能计划。这款芯片的性能比其前身有所提高,包括炙手可热的H100和A100 GPU。客户要求更高的人工智能性能,GPU正逐渐达到满足对更高性能GPU的需求。       英伟达负责高性能和超大规模计算的副总裁伊恩·巴克在新闻发布会上表示,具有多达576个Blackwell GPU的系统可以配对以训练数万亿参数模型。GPU拥有2080亿个晶体管,采用台积电的4纳米工艺制造。这大约是前代H100 GPU的2.5倍,是性能显著提高的第一条线索。       人工智能是一个内存密集型过程,数据需要临时存储在RAM中。GPU有192GB的HBM3E内存,与去年的H200 GPU相同。英伟达正专注于扩大Blackwell gpu的数量,以承担更大的人工智能任务。Buck表示:“这将使人工智能数据中心的规模超过10万个GPU。该GPU在单个GPU上提供每秒20千万亿次的人工智能性能。”       巴克提供了模糊的性能数字,真实的性能数字是不可用的。然而,英伟达很可能使用FP4 (Blackwell的一种新数据类型)来测量性能并达到20千万亿次的性能数字。前代H100为FP8数据类型提供了4万亿次的性能,为FP16提供了约2千兆次的性能。Buck说:“它的训练性能是Hopper的四倍,推理性能是整体的30倍,能效提高了25倍。”。       FP4数据类型用于推理,将允许以最快的速度计算较小的数据包,并更快地返回结果。AI性能更快,但精度更低。FP64和FP32提供了更精确的计算,但不是为人工智能设计的。GPU由两个封装在一起的芯片组成。它们通过一个名为NV-HBI的接口进行通信,该接口以每秒10tb的速度传输信息。Blackwell的192GB HBM3E内存由8tb /秒的内存带宽支持。       英伟达还创建了带有Blackwell GPU和Grace CPU的系统。首先,它创建了GB200超级芯片,将两个Blackwell GPU与它的Grace CPU配对。其次,该公司创建了一个名为GB200 NVL72的全机架系统,该系统具有液体冷却功能,它有36个GB200超级芯片和72个GPU以网格形式互连。       GB200 NVL72系统提供了720 PB的训练性能和1.4 EB的推理性能。它可以支持27万亿个参数模型大小。GPU通过新的NVLink互连互连,该互连具有1.8TB/s的带宽。GB200 NVL72将于今年向包括谷歌云和甲骨文云在内的云提供商推出。它也将通过微软的Azure和AWS提供。       英伟达正在与AWS合作开发一款名为Project Ceiba的人工智能超级计算机,该计算机可以提供400 EB的人工智能性能。Buck说:“我们现在已经将其升级为Grace Blackwell,支持……20000个GPU,现在将提供超过400 EB的人工智能。该系统将于今年晚些时候上线。”       英伟达还宣布了一款名为DGX SuperPOD的人工智能超级计算机,它有八个GB200系统,即576个GPU,可以提供11.5 EB的FP4人工智能性能。GB200系统可以通过NVLink互连进行连接,该互连可以在短距离内保持高速。此外,DGX SuperPOD可以将数万个GPU与英伟达Quantum InfiniBand网络堆栈连接起来。此网络带宽为每秒1800 GB。       英伟达还推出了另一款名为DGX B200的系统,其中包括英特尔的第五代至强芯片Emerald Rapids。该系统将八个B200 GPU与两个Emerald Rapids芯片配对。它也可以设计成基于x86的SuperPod系统。该系统可提供高达144 PB的AI性能,包括1.4TB的GPU内存和64TB/s的内存带宽。 DGX系统将于今年晚些时候推出。       英伟达DGX系统副总裁Charlie Boyle在接受HPCwire采访时表示,Blackwell GPU和DGX系统具有预测性维护功能,可保持最佳状态。博伊尔说:“我们每秒监测1000个数据点,看看如何以最佳方式完成这项工作。”预测性维护功能类似于服务器中的RAS(可靠性、可用性和可维护性)功能。它是系统和GPU中硬件和软件RAS功能的组合。博伊尔说:“芯片中有一些特定的新功能,可以帮助我们预测正在发生的事情。这个功能并不是查看所有GPU的数据轨迹。”