《DDN通过AI400X2 Turbo提高数据吞吐量》

  • 来源专题:新一代信息技术
  • 编译者: isticzz2022
  • 发布时间:2024-03-20
  •       DDN今天推出了其用于人工智能和高性能计算的高端存储解决方案的新版本,英伟达使用该解决方案为其庞大的Eos超级计算机提供动力。与它所取代的系统相比,AI400X2 Turbo的性能提高了30%,这将使客户在与英伟达的GPU配对时,能够更有效地训练大型语言模型。

          DDN在为HPC业务开发存储解决方案方面有着悠久的历史。在新的AI时代,它利用这一领导地位来满足对高速存储解决方案的爆炸性需求,以训练大型语言模型(LLM)和其他AI模型。虽然LLM中的训练数据按大数据标准来看是相当适中的,但在训练过程中需要不断备份或检查点,这推动了需求。例如,DDN产品高级副总裁詹姆斯·库默表示,两年前英伟达开始使用AI400X2系统时,英伟达需要一套存储系统,能够提供每秒1TB的读取速度和每秒500GB的写入速度。库默说:“这对他们来说非常重要。尽管这是一个法学硕士课程,而且理性地认为这只是文字,不是大量数据,但模型规模变得非常大,他们需要对其进行大量检查。”

         英伟达的EOS超级计算机在TOP500榜单上排名第9,该超级计算机由AI400X2存储器支持英伟达本周在加利福尼亚州圣何塞举行了GPU技术大会,该公司在2022年3月推出的名为Eos的超级计算机中采用了AI400X2。这个18 exaflop集群拥有48个AI400X2设备,可以向装有576个DGX系统和4600多个H100 GPU的SuperPOD提供4.3 TB/秒的读取速度和3.1 TB/秒的写入速度。“由于检查点操作,写性能对他们来说是一个非常大的目标,他们的总体目标是确保大约2 TB/秒,而我们能够实现3 TB/秒以上的写性能。”DDN营销副总裁库尔特·库克恩说。

          DDN今天宣布的全新AI400X2 Turbo理论上可使总吞吐量增加30%。作为2U设备,AI400X2 Turbo可以以高达120 GB/s的速度读取数据,以高达75 GB/s的速度写入数据,总IOPS为300万。相比之下,AI400X的读取速度为90 GB/s,写入速度为65 GB/s,而AI400X Turbo取代了AI400X在DDN堆栈上的位置。

          DDN表示,客户将能够以多种方式利用这30%的收益,要么在相同的时间内完成更多的工作,要么更快地完成同样的工作,要么用更少的存储系统来完成同样的工作。库肯说:“我们可以减少配备的设备数量,因此,与单纯的性能、训练时间等相比,你可能会节省30%的电力。根据GPU的数量和拥有的东西,你可能会减少存储空间。”当客户将多个AI400X2设备通过200Gb InfiniBand或以太网网络连接到Nvidia DGX系统或SuperPODs时,总吞吐量也会相应增加。但Coomer表示,这不仅仅是硬件投资的问题。

          由于GenAI的繁荣,DDN的销售额大幅增长。该公司表示,其2023年人工智能存储销售额是2022年的两倍AI400X2 Turbo即将上市。该设备可以安装容量为30TB至500TB的2.5英寸NVMe硬盘。除了DDN的文件系统外,它还包括服务质量、端口分区检测和数据完整性检查/纠正功能。


  • 原文来源:https://www.datanami.com/2024/03/18/ddn-cranks-the-data-throughput-with-ai400x2-turbo/
相关报告
  • 《深圳机场三跑道建设工程正稳步推进 建成后可满足年旅客吞吐量8000万》

    • 来源专题:粤港澳大湾区科技信息监测平台
    • 编译者:mall
    • 发布时间:2020-03-30
    • 重大项目既是经济发展的“压舱石”,也是提升城市功能的有力支撑。3月26日,记者从市建筑工务署了解到,作为深圳今年一季度开工的重大项目之一,深圳机场三跑道扩建项目陆域工程日前已正式开工建设,总投资达123.3亿元。项目建成后,深圳机场将拥有三条跑道,可满足年旅客吞吐量8000万、货邮吞吐量260万吨的保障目标。 三跑道建成后可起降大型客机 据了解,2019年深圳机场起降航班37.02万架次,同比增长4%,大型宽体机运力同比增长超30%,在国内大型机场中排名前列,这些对机场硬件设施和运行效率提出了更高要求。因此深圳机场增加一条跑道的重要性不言而喻。 深圳机场三跑道扩建工程位于深圳机场二跑道和沿江高速之间,平行设置于现状二跑道西侧550米处;长3600米,宽45米,飞行区按照最高等级4F级建设,建成后可起降A380等各类大型客机。 按照初步规划,未来三跑道建成后,将与现有二跑道作为一组跑道使用,分别用于飞机降落和起飞;而现有的一跑道则作为独立跑道,既可用于起飞,也可用于降落。相较目前的运行模式,未来三条跑道联动运行,可增加深圳机场同时起飞和落地的航班架次,机场跑道容量和整体运行效率有望进一步提升,从而实现机场飞行区扩能增效,助推深圳航空业高质量发展。 深圳机场三跑道陆域工程稳步推进 据介绍,为保证工程建设质量、提高建设效率,市建筑工务署方面表示,此次三跑道建设将加大先进技术和工艺应用,将节能环保理念贯穿规划、设计和施工全流程,打造精品工程、绿色工程。目前,深圳机场三跑道陆域工程正稳步推进。 在设计阶段,项目就采用BIM (建筑信息模型)技术,以市建筑工务署发布的《BIM实施管理标准》为指导,结合三维地质模型开展精细化设计,通过共享平台集成数据,协同设计提高效率。据悉,项目设计BIM技术在深圳机场三跑道扩建工程前期的应用研究成果,先后获得工程专业领域多个奖项,包括2019年“智建中国”国际BIM大赛设计组一等奖、2019年首届全国水利行业BIM应用大赛银奖等。 在建设阶段,项目也面临地质难题。据了解,该项目地质情况复杂,淤泥层厚度从2~15米不等,同时需进行机场不停航施工,这对项目后续要进行的工程带来一定难度。为了保证地基处理能满足各功能区要求,该项目设计采用了真空联合堆载预压、水泥搅拌桩等多种地基处理组合的工艺。 与此同时,该项目离沿江高速最近距离仅72米,因此,施工过程中保证沿江高速的安全运营是项目管理重点。为此,项目设计采用了直立式斜撑板桩结构,建立BIM模型对各工况进行计算,施工现场验证计算参数结果的符合性,同时构建了完整的检测方案和应急预案,可有效降低施工期间对沿江高速的安全影响。
  • 《DDN的Infinia 2.0能解决AI工作负载存在的存储问题吗?》

    • 来源专题:新一代信息技术
    • 编译者:isticzz2022
    • 发布时间:2025-02-25
    •       AI对数据的无止境需求暴露出一个日益严重的问题:存储基础设施跟不上。从培训基础模型到运行实时推理,AI工作负载需要对分布在云、边缘和prem环境上的大量数据进行高吞吐量、低延迟的访问。传统存储系统常常在这些需求的重压下挣扎,造成瓶颈,从而大大推迟了人工智能领域的创新。       由此,DDN发布了Infinia 2.0,这是对其专注于AI的软件定义数据存储平台的重大更新,旨在消除AI存储和数据管理中的低效性。该公司称Infinia 2.0是一个统一的智能数据层,可以动态优化AI工作流。DDN首席执行官Alex Bouzari说:“Infinia 2.0不仅仅是一个升级,它是AI数据管理的一个范式转变。”他强调Infinia如何利用公司在HPC存储方面根深蒂固的专业知识为下一代AI驱动的数据服务提供动力。 从DDN的Beyond人工虚拟事件渲染大型Infinia 2.0配置。       随着人工智能应用的增长,规模、速度和效率的挑战变得越来越明显。LLM、生成性AI应用程序和推理系统不仅需要海量数据集,而且需要比以往更快地访问和处理这些数据集的能力。传统的存储解决方案难以解决性能瓶颈问题,使得GPU很难足够快地接收到所需的数据,从而限制了总体培训效率。同时,组织必须跨多个位置导航数据碎片,从结构化数据库到非结构化视频和感官数据。在这些环境之间移动数据会导致效率低下,推高运营成本,并造成延迟问题,从而降低AI应用程序的速度。       DDN声称Infinia 2.0通过集成实时AI数据管道、动态元数据驱动的自动化和多云统一解决了这些挑战,所有这些都是专门针对AI工作负载进行优化的。Infinia 2.0引入了数据海洋(data Ocean),这是一个统一的全局视图,它消除了冗余拷贝,使企业能够在数据驻留的任何位置处理和分析数据,而不是强迫企业使用断开连接的数据湖。此解决方案旨在减少存储扩展,并允许AI模型使用高级元数据标记系统更高效地搜索和检索相关数据。由于具有几乎无限的元数据功能,AI应用程序可以将大量元数据与每个对象关联起来,从而大大加快搜索和检索操作。       Infinia 2.0集成了TensorFlow和PyTorch等框架,该公司表示,这消除了复杂格式转换的需要,允许AI执行引擎直接与数据交互,从而显著加快处理速度。该平台还具有极高的可扩展性,支持从数TB到数EB的存储部署,使其足够灵活,可以满足初创企业和企业级AI运营的需要。       性能是Infinia 2.0可能取得突破的另一个领域。该平台的元数据处理速度快100倍,查找时间从10毫秒缩短到1毫秒。AI管道执行速度快25倍,而系统每秒可以处理多达600000个对象列表,甚至超过AWS S3的限制。通过利用这些能力,DDN断言AI驱动的组织可以确保以最小的延迟和最大的效率对其模型进行培训、改进和部署。 AI工作流示例(来源:DDN)       Beyond Artificial的虚拟发布活动中,DDN的声明得到了Nvidia首席执行官Jensen Huang等行业领导者的大力支持,他强调了Infinia重新定义AI数据管理的潜力,强调了Infinia等元数据驱动架构如何将原始数据转化为可操作智能。企业计算领导者联想(Lenovo)也对该平台表示赞赏,强调其在prem和云数据上进行合并的能力,以实现更高效的AI部署。       DDN的另一个合作伙伴Supermicro也支持Infinia:“在Supermicro,我们很荣幸与DDN合作,转变企业如何利用数据推动业务成功。”Supermicro的创始人、总裁兼首席执行官Charles Liang说。“通过将Supermicro的高性能、节能硬件与DDN革命性的Infinia平台相结合,我们为客户提供了加速AI工作负载、最大化运营效率和降低成本的能力。Infinia跨云、edge和on-prem环境的无缝数据统一使企业能够更快地做出数据驱动的决策,并实现可衡量的结果,完全符合我们提供优化、可持续的基础架构解决方案的承诺。”       在Beyond人造活动上,Bouzari和Huang坐下来在炉边聊天,反思2017年与Nvidia会面时产生的一个想法是如何演变成Infinia平台的。       DDN被要求帮助建立一个人工智能计算的参考架构,但Bouzari看到了一个更大的机会。如果黄的人工智能愿景要实现,世界将需要一个全新的数据架构,一个能够扩展人工智能工作负载、消除延迟并将原始信息转化为可操作智能的架构。       在Beyond人工活动中,黄和Bouzari坐下来聊了聊存储和AI的大局。       Infinia不仅仅是储存,Bouzari说,它为人工智能系统提供能量,就像为大脑提供能量一样。黄认为,这种区别是至关重要的。“人们忘记的最重要的事情之一是数据的重要性,这在应用过程中是必要的,而不仅仅是在培训过程中,”黄指出。您希望在大量数据上进行训练以进行预训练,但在使用过程中,AI必须访问信息,AI希望访问信息,而不是以原始数据形式,而是以信息流形式。       CEO们说,这种从传统存储到AI原生数据智能的转变具有深远的意义。DDN和Nvidia不再将存储视为被动存储库,而是将其转变为主动智能层,使AI能够立即检索洞察。“这就是为什么将对象和原始数据的存储重新构造为数据智能是DDN的一个新机会,为世界上所有的企业提供数据智能,因为AIs运行在这种信息结构之上,”黄说,并称之为“对计算和存储的非凡重构。”       随着人工智能的不断发展,重构显然是必要的,因为支持它的基础设施也必须不断发展。DDN的Infinia 2.0可能代表着企业处理AI存储方式的重大转变,它不是作为被动存档,而是作为实时为AI系统提供支持的主动智能层。Infinia 2.0通过消除传统瓶颈、统一分布式数据并与AI框架无缝集成,旨在重塑AI应用程序访问、处理和处理信息的方式。       凭借英伟达、超微和联想等行业领袖的支持,以及最新一轮3亿美元、估值50亿美元的融资,DDN正将自己定位为人工智能领域的关键参与者。Infinia 2.0能否兑现其雄心勃勃的承诺还有待观察,但有一点很清楚:人工智能的下一个前沿不只是模型和计算,而是重新思考数据本身。通过这次发布,DDN证明了人工智能的未来取决于新的数据管理模式。