《Supermicro推出三款生成式AI超级集群》

  • 来源专题:新一代信息技术
  • 编译者: isticzz2022
  • 发布时间:2024-03-26
  •       美超微宣布了其产品组合的最新补充,以帮助加速生成式人工智能的部署。美超微的SuperCluster解决方案旨在为大型语言模型(LLM)基础设施提供基础构建块,而三款新的美超微SuperCluster解决方案现已可用于生成式人工智能工作负载。4U液冷系统或8U风冷系统是专为强大的LLM训练性能、大批量和大规模LLM推理而设计的。

          第三款SuperCluster采用1U风冷美超微NVIDIA MGXTM系统,已针对云规模推理进行了优化。美超微总裁兼首席执行官查尔斯·梁表示: “在人工智能时代,计算单元现在以集群为单位进行衡量,而不仅仅是服务器数量,而且凭借我们每月5000个机架的全球制造能力,我们可以比以往更快地向客户提供完整的生成式人工智能集群。一个64节点的集群通过几个可扩展的集群构建块,使用400Gb/s NVIDIA Quantum-2 InfiniBand和Spectrum-X以太网网络,使512个NVIDIA HGX H200 GPU和72TB HBM3e互连。美超微的SuperCluster解决方案与NVIDIA AI Enterprise软件相结合,旨在为企业和云基础设施提供培训当今LLM的高达数万亿参数的生成式人工智能和LLM的基础构建块。”

          NVIDIA GPU产品管理副总裁Kaustubh Sanghani表示:“NVIDIA最新的GPU、CPU、网络和软件技术使系统制造商能够加速全球市场的一系列下一代AI工作负载。通过利用NVIDIA加速计算平台和基于Blackwell架构的产品,美超微正在为客户提供他们需要的、可以轻松部署在数据中心的最先进的服务器系统。”

          Supermicro 4U NVIDIA HGX H100/H200 8-GPU系统通过使用液冷技术使8U风冷系统的密度翻倍,从而降低能耗并降低数据中心的总拥有成本。这些系统旨在支持下一代基于NVIDIA Blackwell架构的GPU。Supermicro的冷却分配单元(CDU)和流形(CDM)是将冷却液体分配到Supermicro的定制直接芯片(D2C)冷板的主要动脉,使GPU和CPU保持最佳温度,从而获得最佳性能。这种冷却技术使整个数据中心的电力成本降低40%,并节省数据中心的实际空间。配备NVIDIA HGX H100/H200 8-GPU的系统适用于训练生成AI。通过NVIDIA NVLink、高GPU内存带宽和容量的高速互连GPU是运行LLM模型的关键,具有成本效益。

          Supermicro SuperCluster创建了一个巨大的GPU资源池,作为一个单一的AI超级计算机。据该公司称,无论是安装一个在数万亿个令牌的数据集上从头开始训练的巨大基础模型,还是构建一个云规模的LLM推理基础设施,具有非阻塞400Gb/s结构的脊柱和叶子网络拓扑都可以无缝地从32个节点扩展到数千个节点。Supermicro表示,采用NVIDIA MGX系统设计,以NVIDIA GH200 Grace Hopper Superchips为特色,将为未来的AI集群创建一个蓝图,解决生成AI的关键瓶颈——运行大型语言(LLM)模型的GPU内存带宽和容量,以降低运营成本。256个节点的集群使云规模的高容量推理能力成为可能,易于部署和扩展。

          带有5个机架的4U液冷系统或9个机架的8U风冷系统的Supermicro SuperCluster在一个可扩展的单元中拥有256个NVIDIA H100/H200 Tensor Core GPU。液冷技术可实现512个GPU和64个节点的配置,与风冷256个GPU和32个节点的解决方案占用相同的空间。一个可扩展的单元中包含20TB的HBM3(采用NVIDIA H100)或36TB的HBM3e(采用NVIDIA H200)。1:1网络为每个GPU提供高达400 Gbps的带宽,以实现GPUDirect RDMA和存储,用于训练具有数万亿参数的大型语言模型。采用NVIDIA Quantum-2 InfiniBand和NVIDIA Spectrum-X以太网平台的400G InfiniBand或400GbE以太网交换机结构,具有高度可扩展的骨干叶网络拓扑。

          NVIDIA AI Enterprise 5.0软件支持新的NVIDIA NIM推理微服务,可加速大规模AI模型的部署。采用9个机架中的1U风冷NVIDIA MGX系统的超级集群,在一个可扩展的单元中包含256个GH200 Grace Hopper Superchips。高达144GB的HBM3e + 480GB的LPDDR5X统一内存适用于云规模、高容量、低延迟和高批量推理,能够在一个节点中容纳70B+参数模型。采用400G InfiniBand或400GbE以太网交换机结构,具有高度可扩展的骨干叶网络拓扑。每个节点内含高达8个E1.S NVMe存储设备。采用NVIDIA BlueField-3 DPUs和行业领先的并行文件系统选项的可定制AI数据管道存储结构,为每个GPU提供高吞吐量和低延迟的存储访问。NVIDIA AI Enterprise 5.0软件。Supermicro的超级集群解决方案针对LLM训练、深度学习和高容量、高批量推理进行了优化。客户可以获得即插即用的可扩展单元,以便在数据中心轻松部署并更快地获得结果。

  • 原文来源:https://www.newelectronics.co.uk/content/news/supermicro-launches-three-generative-ai-superclusters
相关报告
  • 《Clarivate推出生成式AI驱动的Web of Science研究助手》

    • 来源专题:科技出版市场动态监测
    • 编译者:崔颖
    • 发布时间:2024-11-15
    •     Clarivate(科睿唯安)于2024年9月4日发布了Web of Science研究助手。这款新的基于生成式人工智能的工具可助力研究人员更快找到关键论文,处理复杂研究任务并进行可视化联系。其聊天界面与Web of Science知识图谱相结合,使研究人员能够更有效地利用Web of Science核心合集中120年来的出版物和引文数据。     Web of Science研究助手的功能包括:     · 灵活的文档搜索,用户可以用多种语言进行自然语言搜索。该工具提供了超过120多年研究的概述,并揭示研究领域中概念和论文之间的联系。     · 引导提示和任务,该工具根据特定情境的提示,建议用户如何改进其研究任务,以扩大或细化发现的范围。引导任务包括“了解主题”、“文献综述”或“查找期刊”,帮助研究人员专注于他们真正需要的内容。     · 独特的数据可视化,用户可以探索趋势图、主题图和共引网络,从不同角度展示主题,并引导他们更深入地开展研究。     该工具是与全球图书馆员和研究人员合作开发的,并于2023年12月进入测试阶段。开发合作伙伴有助于确保这款基于生成式人工智能的助手能够满足质量、准确性和隐私方面的严格标准。Web of Science研究助手团队将继续与科研界合作,收集反馈和指导,以便进行后续改进。     科睿唯安学术与政府研究与分析高级副总裁Emmanuel Thiveaud表示,“Web of Science研究助手不仅限于内容发现,而是为研究人员提供了更深入、更丰富的体验。它增强了决策能力,支持技能培养,并深入洞察研究领域的发展动态。”     作为开发合作伙伴,台湾国立成功大学图书馆知识服务部助理馆长Li-Ling Ou表示,“我们选择参与Web of Science开发者合作伙伴计划,是因为该数据库在信誉和可靠性方面的良好口碑。Web of Science提供的高质量文章,加上试用期的机会,为我们带来了积极且宝贵的体验。我们迫切希望在研究人员中进一步推广Web of Science研究助手。”
  • 《谷歌云推出两款 AI 新工具,加速药物发现和精准医疗》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-05-17
    • 5 月 16 日,谷歌云(Google Cloud)推出了两款新的 AI 工具,旨在帮助生物技术和制药公司加速药物发现和推进精准医疗。 一种名为 Target and Lead Identification Suite 的工具旨在帮助公司预测和理解蛋白质的结构,这是药物开发的基本组成部分。另一个是 Multiomics Suite,将帮助研究人员摄取、存储、分析和共享大量基因组数据。 这标志着谷歌在炙手可热的 AI 竞赛中取得了最新进展,科技公司正在竞相主导一个分析师认为有朝一日可能价值数万亿美元的市场。自去年底公开发布 OpenAI 的 ChatGPT 以来,该公司一直面临展示其生成人工智能技术的压力。 谷歌在 2 月份宣布了其生成式聊天机器人 Bard。上周,谷歌在其年度开发者大会上公布了几项人工智能进展后,其母公司 Alphabet 的股价上涨了 4.3%。 两个新的谷歌云套件有助于解决生物制药行业长期存在的问题:将新药引入美国市场的过程漫长且成本高昂。 根据 Deloitte 最近的一份报告,制药公司可以投资几亿美元到超过 20 亿美元来推出一种药物。他们的努力并不总是成功。Deloitte 的另一份报告称,达到临床试验阶段的药物在美国获得批准的几率为 16%。 巨大的成本和惨淡的成功率伴随着广泛而乏味的研究过程,通常持续约 10 到 15 年。 谷歌云全球生命科学战略和解决方案总监 Shweta Maniar 表示,新套件将在整个药物开发过程中为公司节省「具有统计意义的」时间和金钱。 「我们正在帮助组织更快地将药物提供给合适的人,」Maniar 表示。「我个人非常兴奋,这是我自己和团队多年来一直在努力的事情。」 从周二开始,这两种套件都将广泛提供给客户。谷歌表示,费用将因公司而异。包括大型制药公司和生物技术公司 Cerevel Therapeutics 和 Colossal Biosciences 在内的几家企业已经在使用这些产品。 Google Cloud 的套件采用三管齐下的方法来提高该过程的效率。 该套件允许科学家使用 Google Cloud 的 Analytics Hub 获取、共享和管理蛋白质的分子数据,该平台可让用户安全地跨组织交换数据。 然后,研究人员可以使用该数据通过 AlphaFold2 预测蛋白质的结构,AlphaFold2 是谷歌子公司开发的机器学习模型。 AlphaFold2 在谷歌的 Vertex AI 管道上运行,该平台允许研究人员更快地构建和部署机器学习模型。 在几分钟内,AlphaFold2 可以比传统技术更准确地预测蛋白质的 3D 结构,并且达到研究人员需要的规模。预测该结构至关重要,因为它可以帮助研究人员了解蛋白质在疾病中的功能。 谷歌云套件的最后一个组成部分帮助研究人员确定蛋白质结构如何与不同分子相互作用。如果一个分子改变了蛋白质的功能并最终证明具有治疗疾病的能力,那么它就可以成为新药的基础。 根据有关新工具的新闻稿,研究人员可以使用谷歌云的高性能计算资源来寻找可能导致新药开发的「最有前途」的分子。这些服务为公司提供加速、自动化和扩大工作规模所需的基础设施。