《ZutaCore为英伟达H100和H200 Tensor Core GPU推出了高达1500W的直接芯片无水液冷》

  • 来源专题:新一代信息技术
  • 编译者: isticzz2022
  • 发布时间:2024-03-18
  •       美国ZutaCore为英伟达H100和H200 Tensor Core GPU推出了高达1500W的直接芯片无水液体冷却。3月中旬波士顿有限公司、Hyve Solutions和和硕将在美国的一次会议上展示H100和H200系统,这些系统带有支持1500W及以上功率的无水电介质冷板。

          H200和H100均需要消耗700W的功率,这对已经在努力控制其能耗和占地面积的数据中心设计师提出了挑战。下一代B100和B200 GPU预计将达到1000W,需要更复杂的冷却和电源管理技术。ZutaCore HyperCool直接到芯片无水闭环系统使用两相液体冷却,是为这些高功率水平而开发的,可以使用1500W或更高功率冷却处理器,目前每个机架的计算能力为100kW。

           IDC研究副总裁Peter Rutten表示:“两相直接芯片液冷技术具有显著优势,这就是为什么我们已经看到CPU芯片制造商的吸引力越来越大。”。“到2027年,全球人工智能服务器市场预计将达到490亿美元,ZutaCore宣布支持下一代GPU设计是该行业的一个重要里程碑。”

           ZutaCore联合创始人兼首席执行官Erez Freibach表示:“下一代GPU具有独特的冷却要求,通过无水、直接到芯片的液体冷却技术最有效地解决了目前1500W的GPU,同时将机架处理密度提高了300%。超大型计算机不仅消除了服务器漏水的风险和巨大费用,而且可以在几乎不修改当前房地产、电力或冷却系统的情况下扩展其冷却需求。这改变了人工智能和HPC的未来。”

          ZutaCore与三菱重工(MHI)签订了数据中心应用的合作伙伴关系和白标销售协议,包括提高排热效率、促进节能和脱碳。该系统可以在新的或现有的数据中心中实现,以提供10倍以上的计算能力,降低50%的总拥有成本,100%的热再利用,并减少可持续数据的二氧化碳排放。还有一个不断增长的服务器生态系统,经过认证可以与HyperCool合作,包括戴尔技术公司、华硕、和硕和SuperMicro。

         波士顿有限公司首席销售和营销官Dev Tyagi表示:“ZutaCore的HyperCool技术证明了其即使是最苛刻的处理器也能拥有高效冷却的能力。随着我们迎来下一代GPU设计的曙光,HyperCool将成为一个关键的推动者,与我们对可持续人工智能基础设施的承诺保持一致,同时根据能源效率降低成本。”

         和硕服务器产品营销经理Andy Lin表示:“正如我们在过去的超级计算大会上所展示的那样,HyperCool已经证明了其冷却运行英特尔第四代至强处理器的和硕服务器的能力。通过增加对NVIDIA GPU的支持,ZutaCore现在正在为更可持续的人工智能未来铺平道路,即将推出的人工智能服务器可以以节能、经济高效和可靠的方式部署。”

         TD SYNNEX Corporation全资子公司Hyve Solutions总裁Steve Ichinaga表示:“人工智能将需要具有各种配置的最高性能芯片和服务器,以满足每个客户的特定工作负载。凭借其冷却CPU和GPU的能力,HyperCool将成为一项关键技术,以确保数据中心能够提供所需的可扩展性能,同时继续实现或超过可持续发展目标。”



  • 原文来源:https://www.eenewseurope.com/en/liquid-cooling-for-nvidias-h100-and-h200-gpus/
相关报告
  • 《英伟达发布性能飙升的下一代AI芯片NVIDIA HGX H200》

    • 来源专题:集成电路
    • 编译者:李衍
    • 发布时间:2023-12-04
    •     据官网11月13日报道,英伟达发布了下一代人工智能超级计算机芯片NVIDIA HGX H200,这些芯片将在深度学习和大型语言模型(LLM)方面发挥重要作用,比如 OpenAI 的 GPT-4。新芯片相比上一代有了显著的飞跃,将被用于数据中心和超级计算机,处理诸如天气和气候预测、药物发现、量子计算等任务。     该新型AI芯片是基于英伟达的“Hopper”架构的 HGX H200 GPU,是 H100 GPU 的继任者,也是该公司第一款使用 HBM3e 内存的芯片,这种内存速度更快,容量更大,能以每秒 4.8 TB 的速度提供 141GB 的内存,因此更适合大型语言模型。较前任AI芯片霸主 H100,H200的容量几乎是其两倍,带宽增加了 2.4 倍,性能直接提升了 60% 到 90%。     在人工智能方面,英伟达表示,HGX H200 在 Llama 2(700 亿参数 LLM)上的推理速度比 H100 快了一倍。HGX H200 将以 4 路和 8 路的配置提供,与 H100 系统中的软件和硬件兼容。它将适用于每一种类型的数据中心(本地、云、混合云和边缘),并由 Amazon Web Services、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 等部署,将于 2024 年第二季度推出。    英伟达还将多个HGX H200 GPU 和基于 Arm 的英伟达 Grace CPU 通过该公司的 NVLink-C2C 互连结合起来 ,打造出一款新型 AI 超级计算机产品NVIDIA DGX? GH200 。经过精心设计,其可处理大型推荐系统、生成式 AI 和图形分析领域的 TB 级模型,为超大 AI 模型提供具备线性扩展能力的大型共享内存空间,官方称其专为超级计算机设计,让科学家和研究人员能够通过加速运行 TB 级数据的复杂 AI 和 HPC 应用程序,来解决世界上最具挑战性的问题。GH200 将被用于全球研究中心、系统制造商和云提供商的 40 多台 AI 超级计算机,其中包括戴尔、Eviden、惠普企业(HPE)、联想、QCT 和 Supermicro。其中值得注意的是,HPE 的 Cray EX2500 超级计算机将使用四路 GH200,可扩展到数万个 Grace Hopper 超级芯片节点。
  • 《英伟达推出两个全新AI解决方案硬件平台Blackwell GB200 NVL4和Hopper H200 NVL》

    • 来源专题:集成电路与量子信息
    • 发布时间:2024-11-20
    • 据国内外媒体11月19日报道,在SuperComputer 2024超算大会上,人工智能(AI)芯片大厂英伟达(NVIDIA)公布了一系列新产品、新技术,并正式推出了两个全新的AI解决方案硬件平台,一个是Blackwell GB200 NVL4,一个是Hopper H200 NVL。 据介绍,英伟达GB200 NVL4是一个全新的模块,是基于原有的GB200 Grace Blackwell Superchip AI解决方案的更大扩展。GB200 NVL4模块是在更大的主板上配置两个Blackwell GB200 GPU,即拥有两个Grace CPU和4个Blackwell B200 GPU。该模块被设计为具有4-GPU NVLINK域和1.3T相干内存的单服务器解决方案。在性能方面,该模块将使模拟性能提高2.2倍,训练和推理性能提高1.8倍。英伟达的合作伙伴将在未来几个月内提供NVL4解决方案。