《DDN的Infinia 2.0能解决AI工作负载存在的存储问题吗?》

  • 来源专题:新一代信息技术
  • 编译者: isticzz2022
  • 发布时间:2025-02-25
  •       AI对数据的无止境需求暴露出一个日益严重的问题:存储基础设施跟不上。从培训基础模型到运行实时推理,AI工作负载需要对分布在云、边缘和prem环境上的大量数据进行高吞吐量、低延迟的访问。传统存储系统常常在这些需求的重压下挣扎,造成瓶颈,从而大大推迟了人工智能领域的创新。

          由此,DDN发布了Infinia 2.0,这是对其专注于AI的软件定义数据存储平台的重大更新,旨在消除AI存储和数据管理中的低效性。该公司称Infinia 2.0是一个统一的智能数据层,可以动态优化AI工作流。DDN首席执行官Alex Bouzari说:“Infinia 2.0不仅仅是一个升级,它是AI数据管理的一个范式转变。”他强调Infinia如何利用公司在HPC存储方面根深蒂固的专业知识为下一代AI驱动的数据服务提供动力。

    从DDN的Beyond人工虚拟事件渲染大型Infinia 2.0配置。

          随着人工智能应用的增长,规模、速度和效率的挑战变得越来越明显。LLM、生成性AI应用程序和推理系统不仅需要海量数据集,而且需要比以往更快地访问和处理这些数据集的能力。传统的存储解决方案难以解决性能瓶颈问题,使得GPU很难足够快地接收到所需的数据,从而限制了总体培训效率。同时,组织必须跨多个位置导航数据碎片,从结构化数据库到非结构化视频和感官数据。在这些环境之间移动数据会导致效率低下,推高运营成本,并造成延迟问题,从而降低AI应用程序的速度。

          DDN声称Infinia 2.0通过集成实时AI数据管道、动态元数据驱动的自动化和多云统一解决了这些挑战,所有这些都是专门针对AI工作负载进行优化的。Infinia 2.0引入了数据海洋(data Ocean),这是一个统一的全局视图,它消除了冗余拷贝,使企业能够在数据驻留的任何位置处理和分析数据,而不是强迫企业使用断开连接的数据湖。此解决方案旨在减少存储扩展,并允许AI模型使用高级元数据标记系统更高效地搜索和检索相关数据。由于具有几乎无限的元数据功能,AI应用程序可以将大量元数据与每个对象关联起来,从而大大加快搜索和检索操作。

          Infinia 2.0集成了TensorFlow和PyTorch等框架,该公司表示,这消除了复杂格式转换的需要,允许AI执行引擎直接与数据交互,从而显著加快处理速度。该平台还具有极高的可扩展性,支持从数TB到数EB的存储部署,使其足够灵活,可以满足初创企业和企业级AI运营的需要。

          性能是Infinia 2.0可能取得突破的另一个领域。该平台的元数据处理速度快100倍,查找时间从10毫秒缩短到1毫秒。AI管道执行速度快25倍,而系统每秒可以处理多达600000个对象列表,甚至超过AWS S3的限制。通过利用这些能力,DDN断言AI驱动的组织可以确保以最小的延迟和最大的效率对其模型进行培训、改进和部署。

    AI工作流示例(来源:DDN)

          Beyond Artificial的虚拟发布活动中,DDN的声明得到了Nvidia首席执行官Jensen Huang等行业领导者的大力支持,他强调了Infinia重新定义AI数据管理的潜力,强调了Infinia等元数据驱动架构如何将原始数据转化为可操作智能。企业计算领导者联想(Lenovo)也对该平台表示赞赏,强调其在prem和云数据上进行合并的能力,以实现更高效的AI部署。

          DDN的另一个合作伙伴Supermicro也支持Infinia:“在Supermicro,我们很荣幸与DDN合作,转变企业如何利用数据推动业务成功。”Supermicro的创始人、总裁兼首席执行官Charles Liang说。“通过将Supermicro的高性能、节能硬件与DDN革命性的Infinia平台相结合,我们为客户提供了加速AI工作负载、最大化运营效率和降低成本的能力。Infinia跨云、edge和on-prem环境的无缝数据统一使企业能够更快地做出数据驱动的决策,并实现可衡量的结果,完全符合我们提供优化、可持续的基础架构解决方案的承诺。”

          在Beyond人造活动上,Bouzari和Huang坐下来在炉边聊天,反思2017年与Nvidia会面时产生的一个想法是如何演变成Infinia平台的。

          DDN被要求帮助建立一个人工智能计算的参考架构,但Bouzari看到了一个更大的机会。如果黄的人工智能愿景要实现,世界将需要一个全新的数据架构,一个能够扩展人工智能工作负载、消除延迟并将原始信息转化为可操作智能的架构。

          在Beyond人工活动中,黄和Bouzari坐下来聊了聊存储和AI的大局。

          Infinia不仅仅是储存,Bouzari说,它为人工智能系统提供能量,就像为大脑提供能量一样。黄认为,这种区别是至关重要的。“人们忘记的最重要的事情之一是数据的重要性,这在应用过程中是必要的,而不仅仅是在培训过程中,”黄指出。您希望在大量数据上进行训练以进行预训练,但在使用过程中,AI必须访问信息,AI希望访问信息,而不是以原始数据形式,而是以信息流形式。

          CEO们说,这种从传统存储到AI原生数据智能的转变具有深远的意义。DDN和Nvidia不再将存储视为被动存储库,而是将其转变为主动智能层,使AI能够立即检索洞察。“这就是为什么将对象和原始数据的存储重新构造为数据智能是DDN的一个新机会,为世界上所有的企业提供数据智能,因为AIs运行在这种信息结构之上,”黄说,并称之为“对计算和存储的非凡重构。”

          随着人工智能的不断发展,重构显然是必要的,因为支持它的基础设施也必须不断发展。DDN的Infinia 2.0可能代表着企业处理AI存储方式的重大转变,它不是作为被动存档,而是作为实时为AI系统提供支持的主动智能层。Infinia 2.0通过消除传统瓶颈、统一分布式数据并与AI框架无缝集成,旨在重塑AI应用程序访问、处理和处理信息的方式。

          凭借英伟达、超微和联想等行业领袖的支持,以及最新一轮3亿美元、估值50亿美元的融资,DDN正将自己定位为人工智能领域的关键参与者。Infinia 2.0能否兑现其雄心勃勃的承诺还有待观察,但有一点很清楚:人工智能的下一个前沿不只是模型和计算,而是重新思考数据本身。通过这次发布,DDN证明了人工智能的未来取决于新的数据管理模式。


  • 原文来源:https://www.hpcwire.com/2025/02/24/ai-workloads-have-a-storage-problem-can-ddns-infinia-2-0-solve-it/
相关报告
  • 《英特尔布局AI全栈式解决方案 能解决哪些实际问题?》

    • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
    • 编译者:冯瑞华
    • 发布时间:2018-04-17
    • 以“应用人工智能”为主题,英特尔与O’Reilly联合主办的中国人工智能大会在北京举行,英特尔在会上分享了人工智能实际应用方面的技术和最新创新成果,展示了人工智能全栈解决方案,分享了如何利用英特尔人工智能产品和技术深入挖掘不同行业数据价值,解决实际问题,加速人工智能产业落地的洞察和实践经验。 英特尔技术专家还在大会上发表了题为“人工智能如何推动医疗现代化”的演讲,阐述了人工智能如何为医疗行业提供新洞察并提高诊断效率。此外在题为“基于深度学习的自然语言处理”的演讲中,英特尔分享了人工智能如何推动自然语言处理的发展并惠及各行业。 英特尔正部署人工智能全栈式解决方案 “英特尔正在不断推动技术和产品创新,以简化和加速人工智能的部署与发展。”英特尔人工智能事业部副总裁、人工智能实验室和软件总经理Arjun Bansal表示:“英特尔拥有业内广泛的人工智能产品组合,持续加大技术研究投资和人才培育,通过与生态产业合作伙伴携手,让人工智能加速在医疗、零售、能源、交通、制造等各行业尽快落地。” 目前,英特尔已经部署了人工智能全栈式解决方案等一系列产品组合,智能菌梳理如下: 至强可扩展处理器、英特尔Nervana神经网络处理器和FPGA、网络以及存储技术; 针对深度学习/机器学习而优化的基于英特尔架构的数学函数库(Intel MKL)以及数据分析加速库(Intel DAAL); 支持和优化开源深度学习框架如Spark、Caffe、Theano以及Neon; 构建以英特尔Movidius和Saffron为代表的平台等等。 此外,英特尔还表示,为更好的推动人工智能技术普及,英特尔还联手百度云等合作伙伴安排了培训等课程,让开发者们更好地了解BigDL等框架。BigDL是一款基于Apache Spark的分布式深度学习框架,它可以无缝的直接运行在现有的Apache Spark和Hadoop集群之上。百度云在即将发布的数据分析平台中将整合BigDL最新版本。未来英特尔还将联合百度云智学院推出完整的“数据分析+BigDL”培训课程。 用人工智能解决医疗行业的三大挑战 人工智能正在不断推动医疗行业现代化发展,目前在医疗行业主要有三大挑战,第一是数据量特别大,而且不断地增加;第二是中国临床医生太少,不足以满足中国人民群众的需求;第三是人们看病要花费高额的时间和成本。 英特尔人工智能事业部副总裁、人工智能实验室和软件总经理Arjun Bansal称,英特尔的的目标是解决这三大类的问题和挑战。通过深度学习处理大数据,用海量的数据来进行学习和训练。关于医生人数不够多的问题,Arjun Bansal透露,目前英特尔也搭建了一些解决方案和系统来做一些特定疾病的检测,比如说做一些电子病历的存档和分析,为医生提供一些辅助服务。在成本方面,英特尔制定了专门具体的解决方案,比如做大量的内容筛选。 Arjun Bansal表示,目前CT扫描、核磁共振的应用都可以在至强处理器上完成,英特尔正在扩大使用范例。同时,英特尔还搭建了专门的硬件和软件的支持来做推理、收集和分析数据。“英特尔希望能够为客户定制化模型和产品,然后在特定领域,比如在金融、医疗、零售领域为我们的客户提供精专化的服务,尤其对于中国客户。” 面对AI是否将取代医生的工作?Arjun Bansal认为,AI技术是为了能够提升医生、护士的工作能力,比如说他们可以看更多的病人、提高工作效率、提高诊断的准确性。人类医生和机器AI合作,这是我们目前的主攻方向。 人工智能如何推动自然语言处理的发展? 今年以来,利用深度学习,自然语言处理领域出现了很多的成果,比如年初阿里、微软在斯坦福举行的SQuAD 挑战赛(Stanford Question Answering Dataset),机器表现就超过了人类。前端时间,微软宣布其研发的机器翻译系统在通用新闻报道测试集newstest2017的中-英测试集上,达到了可与人工翻译媲美的水平。 那么,这是不是意味着机器在自然语言处理上很快就能落地应用? 答案是否定的。英特尔人工智能事业部数据科学部主任刘茵茵称,SQuAD就好比自然语言处理领域的ImageNet,它是一个大型的数据库,可以为很多研究人员、开发人员提供一个平台,不断地开发新算法,并且比较各种各样算法的优劣势。但这仍不能够迅速地将科研成果使用到应用场景中,还需要经过一段时间的提升和优化,同时还需要各种各样的软件、硬件配合在一起才能实现新的商业方案。 刘茵茵,从学术创新到商业方案,虽然现在的发展十分迅速,但仍需要一个过程,SQuAD和自然语言处理也是一个非常关键和激动人心的部分。近来,很多软件和算法性能得到了提高,并开始解决一些复杂自然语言处理的模型和应用。但是可能还是需要一段时间来整合软件和硬件的配合,进而更好地应用到商业领域。 总之,数据洪流带来巨大机遇和挑战,多种多样的应用需求需要不同的解决方案和技术来满足,人工智能也是如此。纷繁复杂的工作负载也需要不同类型和特点的人工智能产品来支撑。
  • 《DDN通过AI400X2 Turbo提高数据吞吐量》

    • 来源专题:新一代信息技术
    • 编译者:isticzz2022
    • 发布时间:2024-03-20
    •       DDN今天推出了其用于人工智能和高性能计算的高端存储解决方案的新版本,英伟达使用该解决方案为其庞大的Eos超级计算机提供动力。与它所取代的系统相比,AI400X2 Turbo的性能提高了30%,这将使客户在与英伟达的GPU配对时,能够更有效地训练大型语言模型。       DDN在为HPC业务开发存储解决方案方面有着悠久的历史。在新的AI时代,它利用这一领导地位来满足对高速存储解决方案的爆炸性需求,以训练大型语言模型(LLM)和其他AI模型。虽然LLM中的训练数据按大数据标准来看是相当适中的,但在训练过程中需要不断备份或检查点,这推动了需求。例如,DDN产品高级副总裁詹姆斯·库默表示,两年前英伟达开始使用AI400X2系统时,英伟达需要一套存储系统,能够提供每秒1TB的读取速度和每秒500GB的写入速度。库默说:“这对他们来说非常重要。尽管这是一个法学硕士课程,而且理性地认为这只是文字,不是大量数据,但模型规模变得非常大,他们需要对其进行大量检查。”      英伟达的EOS超级计算机在TOP500榜单上排名第9,该超级计算机由AI400X2存储器支持英伟达本周在加利福尼亚州圣何塞举行了GPU技术大会,该公司在2022年3月推出的名为Eos的超级计算机中采用了AI400X2。这个18 exaflop集群拥有48个AI400X2设备,可以向装有576个DGX系统和4600多个H100 GPU的SuperPOD提供4.3 TB/秒的读取速度和3.1 TB/秒的写入速度。“由于检查点操作,写性能对他们来说是一个非常大的目标,他们的总体目标是确保大约2 TB/秒,而我们能够实现3 TB/秒以上的写性能。”DDN营销副总裁库尔特·库克恩说。       DDN今天宣布的全新AI400X2 Turbo理论上可使总吞吐量增加30%。作为2U设备,AI400X2 Turbo可以以高达120 GB/s的速度读取数据,以高达75 GB/s的速度写入数据,总IOPS为300万。相比之下,AI400X的读取速度为90 GB/s,写入速度为65 GB/s,而AI400X Turbo取代了AI400X在DDN堆栈上的位置。       DDN表示,客户将能够以多种方式利用这30%的收益,要么在相同的时间内完成更多的工作,要么更快地完成同样的工作,要么用更少的存储系统来完成同样的工作。库肯说:“我们可以减少配备的设备数量,因此,与单纯的性能、训练时间等相比,你可能会节省30%的电力。根据GPU的数量和拥有的东西,你可能会减少存储空间。”当客户将多个AI400X2设备通过200Gb InfiniBand或以太网网络连接到Nvidia DGX系统或SuperPODs时,总吞吐量也会相应增加。但Coomer表示,这不仅仅是硬件投资的问题。       由于GenAI的繁荣,DDN的销售额大幅增长。该公司表示,其2023年人工智能存储销售额是2022年的两倍AI400X2 Turbo即将上市。该设备可以安装容量为30TB至500TB的2.5英寸NVMe硬盘。除了DDN的文件系统外,它还包括服务质量、端口分区检测和数据完整性检查/纠正功能。