DDN今天推出了其用于人工智能和高性能计算的高端存储解决方案的新版本,英伟达使用该解决方案为其庞大的Eos超级计算机提供动力。与它所取代的系统相比,AI400X2 Turbo的性能提高了30%,这将使客户在与英伟达的GPU配对时,能够更有效地训练大型语言模型。
DDN在为HPC业务开发存储解决方案方面有着悠久的历史。在新的AI时代,它利用这一领导地位来满足对高速存储解决方案的爆炸性需求,以训练大型语言模型(LLM)和其他AI模型。虽然LLM中的训练数据按大数据标准来看是相当适中的,但在训练过程中需要不断备份或检查点,这推动了需求。例如,DDN产品高级副总裁詹姆斯·库默表示,两年前英伟达开始使用AI400X2系统时,英伟达需要一套存储系统,能够提供每秒1TB的读取速度和每秒500GB的写入速度。库默说:“这对他们来说非常重要。尽管这是一个法学硕士课程,而且理性地认为这只是文字,不是大量数据,但模型规模变得非常大,他们需要对其进行大量检查。”
英伟达的EOS超级计算机在TOP500榜单上排名第9,该超级计算机由AI400X2存储器支持英伟达本周在加利福尼亚州圣何塞举行了GPU技术大会,该公司在2022年3月推出的名为Eos的超级计算机中采用了AI400X2。这个18 exaflop集群拥有48个AI400X2设备,可以向装有576个DGX系统和4600多个H100 GPU的SuperPOD提供4.3 TB/秒的读取速度和3.1 TB/秒的写入速度。“由于检查点操作,写性能对他们来说是一个非常大的目标,他们的总体目标是确保大约2 TB/秒,而我们能够实现3 TB/秒以上的写性能。”DDN营销副总裁库尔特·库克恩说。
DDN今天宣布的全新AI400X2 Turbo理论上可使总吞吐量增加30%。作为2U设备,AI400X2 Turbo可以以高达120 GB/s的速度读取数据,以高达75 GB/s的速度写入数据,总IOPS为300万。相比之下,AI400X的读取速度为90 GB/s,写入速度为65 GB/s,而AI400X Turbo取代了AI400X在DDN堆栈上的位置。
DDN表示,客户将能够以多种方式利用这30%的收益,要么在相同的时间内完成更多的工作,要么更快地完成同样的工作,要么用更少的存储系统来完成同样的工作。库肯说:“我们可以减少配备的设备数量,因此,与单纯的性能、训练时间等相比,你可能会节省30%的电力。根据GPU的数量和拥有的东西,你可能会减少存储空间。”当客户将多个AI400X2设备通过200Gb InfiniBand或以太网网络连接到Nvidia DGX系统或SuperPODs时,总吞吐量也会相应增加。但Coomer表示,这不仅仅是硬件投资的问题。
由于GenAI的繁荣,DDN的销售额大幅增长。该公司表示,其2023年人工智能存储销售额是2022年的两倍AI400X2 Turbo即将上市。该设备可以安装容量为30TB至500TB的2.5英寸NVMe硬盘。除了DDN的文件系统外,它还包括服务质量、端口分区检测和数据完整性检查/纠正功能。