《英伟达GPU产品性能比较》

  • 来源专题:新一代信息技术
  • 编译者: isticzz2022
  • 发布时间:2024-03-14
  •       加速深度学习模型的训练和推理过程对于释放其真正潜力至关重要,NVIDIA GPU已成为这方面改变游戏规则的技术。我们将NVIDIA更新的L40S GPU(立即可用)与其NVIDIA A100 GPU进行比较。A100的交付周期从30-52周不等,许多组织都将L40S视为一种可行的替代方案。L40S可以加速人工智能训练和推理工作负载,是微调、训练小模型和高达4K GPU的中小型训练的非常出色的解决方案。

    表1 A100与L40S的性能估算

    • 内存大小和带宽

          考虑两个GPU的内存和带宽能力对于满足特定LLM推理和训练工作负载的要求至关重要。确定数据集的大小、模型的复杂性和项目的规模将指导您选择能够确保平稳高效操作的GPU。

    • 成本和可用性

          虽然NVIDIA A100是LLM工作负载的强大GPU,但其最先进的技术价格更高。另一方面,L40S以可承受的成本提供了卓越的性能和效率。

    图1  L40S、A100和H100规格的比较

    此外,值得注意的是,L40S可以立即购买,而A100目前的交付周期正在延长。再加上L40S的性能和效率,这使得许多客户将L40S视为一个极具吸引力的选择,而不考虑替代GPU的交付周期。

    为LLM推理和训练选择合适的GPU是一个关键决策,它直接影响模型性能和生产力。NVIDIA L40S在性能和经济性之间取得了良好的平衡,是一个不错的选择。

  • 原文来源:https://www.hpcwire.com/2023/12/11/choosing-the-right-gpu-for-llm-inference-and-training/
相关报告
  • 《 戴尔EMC和英伟达团队合作,打造下一代1kw功率GPU》

    • 来源专题:新一代信息技术
    • 编译者:isticzz2022
    • 发布时间:2024-03-18
    •       戴尔科技首席运营官兼副董事长Jeffrey Clarke表示,作为H200的后续产品,英伟达B100的关键将是电力和热管理。克拉克说:“目前对GPU的需求持续超过供应,尽管我们看到H100的交付周期正在加速。我们还对配备下一代人工智能GPU的人工智能优化服务器的订单非常感兴趣,包括英伟达H200和AMD MI300X。大多数客户仍处于人工智能之旅的早期阶段。”       他说:“我们面前有一个产品过渡,具体来说就是H100和H200,我们正在接受新产品的订单,同时也在转换现有产品的生产线。去年基本上是H100的展示。今年有四种不同的变体,并且有一个与之相关的过渡。包括过渡到H200 Hopper GPU和基于Blackwell GPU的B200。我们在散热方面的特性,真的不需要直接液体冷却来达到每个GPU 1000瓦的能量密度。明年B200将会实现这一点。对我们来说,机会在于展示我们的工程设计,以及我们能够以多快的速度行动,以及我们作为行业领导者所做的工作,即利用我们的专业知识使液体冷却大规模发挥作用,无论是在流体化学和性能方面,我们的互联工作,我们正在进行的遥测工作,还是我们正在进行的电源管理工作。”       戴尔EMC和英伟达团队合作,打造AI参考设计。Graphcore在第一台戴尔服务器上大幅削减了功耗。英伟达超大规模和高性能计算副总裁伊恩·巴克表示:“为了利用生成式人工智能和高性能计算应用程序创造智能,必须使用大型、快速的GPU内存,高速高效地处理大量数据。凭借H200,业界领先的端到端人工智能超级计算平台能够更快地解决世界上一些最重要的挑战。”H200可用于英伟达HGX H200服务器板,具有四路和八路配置,与HGX H100系统的硬件和软件都兼容。
  • 《英伟达的新款 Blackwell GPU 可以训练包含数万亿参数的 AI 模型》

    • 来源专题:新一代信息技术
    • 编译者:isticzz2022
    • 发布时间:2024-03-20
    •       英伟达(Nvidia)目前最新、最快的GPU代号为Blackwell,它将在今年支持该公司的人工智能计划。这款芯片的性能比其前身有所提高,包括炙手可热的H100和A100 GPU。客户要求更高的人工智能性能,GPU正逐渐达到满足对更高性能GPU的需求。       英伟达负责高性能和超大规模计算的副总裁伊恩·巴克在新闻发布会上表示,具有多达576个Blackwell GPU的系统可以配对以训练数万亿参数模型。GPU拥有2080亿个晶体管,采用台积电的4纳米工艺制造。这大约是前代H100 GPU的2.5倍,是性能显著提高的第一条线索。       人工智能是一个内存密集型过程,数据需要临时存储在RAM中。GPU有192GB的HBM3E内存,与去年的H200 GPU相同。英伟达正专注于扩大Blackwell gpu的数量,以承担更大的人工智能任务。Buck表示:“这将使人工智能数据中心的规模超过10万个GPU。该GPU在单个GPU上提供每秒20千万亿次的人工智能性能。”       巴克提供了模糊的性能数字,真实的性能数字是不可用的。然而,英伟达很可能使用FP4 (Blackwell的一种新数据类型)来测量性能并达到20千万亿次的性能数字。前代H100为FP8数据类型提供了4万亿次的性能,为FP16提供了约2千兆次的性能。Buck说:“它的训练性能是Hopper的四倍,推理性能是整体的30倍,能效提高了25倍。”。       FP4数据类型用于推理,将允许以最快的速度计算较小的数据包,并更快地返回结果。AI性能更快,但精度更低。FP64和FP32提供了更精确的计算,但不是为人工智能设计的。GPU由两个封装在一起的芯片组成。它们通过一个名为NV-HBI的接口进行通信,该接口以每秒10tb的速度传输信息。Blackwell的192GB HBM3E内存由8tb /秒的内存带宽支持。       英伟达还创建了带有Blackwell GPU和Grace CPU的系统。首先,它创建了GB200超级芯片,将两个Blackwell GPU与它的Grace CPU配对。其次,该公司创建了一个名为GB200 NVL72的全机架系统,该系统具有液体冷却功能,它有36个GB200超级芯片和72个GPU以网格形式互连。       GB200 NVL72系统提供了720 PB的训练性能和1.4 EB的推理性能。它可以支持27万亿个参数模型大小。GPU通过新的NVLink互连互连,该互连具有1.8TB/s的带宽。GB200 NVL72将于今年向包括谷歌云和甲骨文云在内的云提供商推出。它也将通过微软的Azure和AWS提供。       英伟达正在与AWS合作开发一款名为Project Ceiba的人工智能超级计算机,该计算机可以提供400 EB的人工智能性能。Buck说:“我们现在已经将其升级为Grace Blackwell,支持……20000个GPU,现在将提供超过400 EB的人工智能。该系统将于今年晚些时候上线。”       英伟达还宣布了一款名为DGX SuperPOD的人工智能超级计算机,它有八个GB200系统,即576个GPU,可以提供11.5 EB的FP4人工智能性能。GB200系统可以通过NVLink互连进行连接,该互连可以在短距离内保持高速。此外,DGX SuperPOD可以将数万个GPU与英伟达Quantum InfiniBand网络堆栈连接起来。此网络带宽为每秒1800 GB。       英伟达还推出了另一款名为DGX B200的系统,其中包括英特尔的第五代至强芯片Emerald Rapids。该系统将八个B200 GPU与两个Emerald Rapids芯片配对。它也可以设计成基于x86的SuperPod系统。该系统可提供高达144 PB的AI性能,包括1.4TB的GPU内存和64TB/s的内存带宽。 DGX系统将于今年晚些时候推出。       英伟达DGX系统副总裁Charlie Boyle在接受HPCwire采访时表示,Blackwell GPU和DGX系统具有预测性维护功能,可保持最佳状态。博伊尔说:“我们每秒监测1000个数据点,看看如何以最佳方式完成这项工作。”预测性维护功能类似于服务器中的RAS(可靠性、可用性和可维护性)功能。它是系统和GPU中硬件和软件RAS功能的组合。博伊尔说:“芯片中有一些特定的新功能,可以帮助我们预测正在发生的事情。这个功能并不是查看所有GPU的数据轨迹。”