NVIDIA宣布CUDA支持Arm，开启实现百万兆级超级计算机的新途径

《NVIDIA宣布CUDA支持Arm，开启实现百万兆级超级计算机的新途径》

来源专题：集成电路
编译者： Lightfeng
发布时间：2019-07-21
在2019年6月17日的国际超算大会上，NVIDIA宣布支持Arm CPU，为高性能计算行业构建具有极高能效水平的百万兆级AI超级计算机开辟了一条全新途径。NVIDIA将于年底前一直向Arm生态系统提供全堆栈的AI和HPC软件，该堆栈可以加速600多个HPC应用程序和所有AI框架，其中包括了所有NVIDIACUDA-XAI和HPC库、GPU加速的AI框架和软件开发工具，如支持OpenACC的PGI编译器和性能分析器。堆栈优化完成后，NVIDIA将为所有主要CPU架构提供加速，包括x86、POWER和Arm。
根据今日发布的Green500排行榜，在全球最节能的25款超级计算机中，有22款都得益于NVIDIA的支持。
而使之成为可能的关键因素在于：NVIDIA GPU驱动的超级计算机能够将繁重的处理作业卸载至更为节能的并行处理CUDA GPU之上；NVIDIA与Mellanox合作优化整体超级计算集群的处理；以及NVIDIA发明的SXM3D封装和可实现极密集型扩展节点的NVIDIA NVLink互连技术。
NVIDIA对基于Arm的HPC系统的支持建立在两者超过10年的合作基础之上。NVIDIA的几款用于便携式游戏、自动驾驶汽车、机器人和嵌入式AI计算的系统级芯片产品都采用了Arm。
包括超算中心和系统提供商以及系统级芯片制造商等在内的，众多HPC行业及Arm生态系统中的全球领先企业，都表达了其对此举的支持，如Ampere Computing、Atos、Cray、欧洲处理器计划（EPI）等。
NVIDIA创始人兼首席执行官黄仁勋表示：“NVIDIA CUDA加速的计算和Arm的高能效CPU架构的相结合，将助力HPC社区实现大幅提升，以达到百万兆级。”

展开更多

113浏览量

0点赞

原文链接

相关报告

《随着Arm HPC生态系统的发展，Fugaku再次荣登超级计算机排名榜首》

来源专题：集成电路

编译者：Lightfeng

发布时间：2020-11-30

由日本理研社和富士通联合开发的基于Arm技术的超级计算机Fugaku再次荣登超算Top 500榜首，这进一步凸显了快速发展的高性能计算对需求，Arm 技术通过能源效率、性能和可扩展性实现了无可匹敌的组合，解决了这一需求。除了RIKEN和Fujitsu的出色表现之外，基于Arm的解决方案被越来越多的生态系统采用。大韩民国国家计算机研究所ETRI最近宣布，计划在其K-AB21系统中采用即将推出的neoversev1（以前的代号为Zeus）CPU设计，该设计具有Arm可扩展矢量扩展（SVE）功能。ETRI的目标是AB 21（Artificial Brain 21），即每个CPU 16teraflops和每机架1600teraflops，同时将功耗比目标降低60%。与此同时，在本月早些时候举行的Arm高性能计算用户组（AHUG）会议上，Ampere Computing、桑迪亚国家实验室、布里斯托大学和亚马逊网络服务（AWS）提供了其基于Arm的HPC计划的详细信息。在SC20活动中，由欧洲处理器倡议组织（European Processor Initiative）成立的公司SiPearl也将申请采用Neoverse V1作为其Rhea处理器，这是SiPearl exascale计算项目的一部分。NVIDIA还宣布，研究人员通过NVIDIA A100 GPU和基于Arm Neoverse的Ampere Altra CPU，将HPC的性能提高近26倍。许多新的基于Arm的解决方案的影响还处于初期，Fugaku在COVID-19相关研究工作中所产生的积极影响值得自豪。尽管Fugaku仅在几个月前正式启动，但已被部署到五个不同的COVID-19研究项目中，其中一个研究病毒在空中的传播方式，另一个研究2000多种现有药物的功效。这些计划已经进行了多年，最终旨在解决HPC反复出现的挑战之一：如何在不超出合理功率和预算范围的前提下扩展构建一个新的性能高度的系统。Arm处理器体系结构背后的中心思想之一为，单线程、多核处理器将成为超级计算机CPU的新规范，以此作为在不增加相对功率的情况下提高性能的一种方式。 Arm高性能计算高级总监Brent Gorda表示：“今年是Arm HPC的分水岭。从我们十年前在服务器SoC设计方面的拙劣开端到两次被评为世界顶级超级计算机，Arm的旅程意义非凡。在全球范围内，我们看到对Arm生态系统的需求和投资正在持续，我们已经准备好应对这一挑战，我们期待着未来十年，可以拥有真正改变世界的技术。”

展开更多

254浏览量

0点赞

收藏

原文链接
《Wrangler超级计算机加速了大数据：数据密集型超计算机为用户带来了高性能科学计算》
- 来源专题：宽带移动通信
- 编译者：gaof
- 发布时间：2016-05-23
- 综述：根据一项特别报道，新型超级计算机Wrangler正帮助研发人员加速大数据发展和取得新发现。超级计算机Wrangler设计的更加用户友好型，用网页驱动的方法实现高性能的计算，包括数据分析。处理大数据有时候对需要快速和超级计算的研究人员来说就像没有铺平的道路。 “当你处于数据的世界，路上充满了岩石和碰撞，有许多事情需要关心，”前哈勃太空望远镜科学家现在是德克萨斯高级计算中心（TACC）数据密集计算小组的领导的Niall Gaffney如是说。 Gaffney努力使新的超级计算机Wrangler上线，像以前驯服野马的西部牛仔一样，Wrangler驯服的是大数据，比如包含分析成千上万文件的计算问题，这些文件需要快速打开检查并相关分析。 Wrangler填平了由（NSF）美国国家科学基金支持的XSEDE（极端科学和工程发现环境）的超级计算资源的缺陷，XSEDE是先进数字资源的集合，科学家们可以共享这些数字，分析产生于每一个领域研究的大规模数据集。2013年，NSF奖励TACC和它的学术合作伙伴印第安纳大学和芝加哥大学1120万美金，用以建立和经营Wrangler，处理数据密集高性能计算的超级计算机。 Wrangler被设计用来与Stampede超级计算机密切合作的，根据每年两次的500强排名，Stampede超级计算机能力排名第十，并且是奥斯丁德克萨斯大学TACC的旗舰产品。自2013年上线以来，Stampede完成了开放科学600万次计算工作。 “我们保持了与Stampede系统很好的兼容性，” Gaffney说：“但是添加了一些新的东西，比如超大规模闪存系统、超大规模分布式旋转光盘存储系统和高速网络访问，这使得那些有不能被如Stampede和Lonestar系统解决的问题的人能够用他们之前没尝试的方法解决。” Gaffney做了一个对比，Stampede那样的计算机像赛车跑车，神奇的计算引擎最优化以在光滑的跑道上快速前进，另一方面，Wrangler更像是拉力赛车，在没有铺平的崎岖的道路上快速行进。 “如果你开一辆法拉利参加越野赛，会想改变道路，” Gaffney说：“你想改变整辆车组装在一起的方式，即使使用相同的组件，要适合于人们不同的用途。” Wrangler的核心是600兆兆字节的闪存，通过其超过3000个Haswell计算核心PCI（外部控制器接口）互联共享。Gaffney说：“系统的所有部分都可以访问相同的存储空间，他们可以在这些数据上进行并行操作，这些数据存储在这个高速存储系统中，以获得他们在其他地方不能获得的结果。” 这些大量的闪存来自于DSSD，DSSD是由Sun Microsystems的Andy Bechtolsheim联合创立的公司，2015年5月获得了EMC。 Bechtolsheim在TACC的影响追溯到他领导的‘Magnum’无线网络带宽交换机，是为了Stampede的前身已经退役的Ranger超级计算机设计的。 DSSD在CPU和数据之间选择了一个捷径，这一点是比较新颖的，“计算机的大脑直接连接到存储系统，中间没有转接，” Gaffney说：“它实际上允许使用一些你能轻松得到的快速存储器直接计算，两个之间没有问题。” 加速了基因分析途径 Gaffney回想起了科学家们面对OrthoMCL时遇到的问题，OrthoMCL可以分析来自于从看似不相关的物种发现相似的基因血统的DNA序列，问题就是OrthoMCL会像一匹难以驯服的野马一样释放数据。 “它产生了海量的数据，外部运行计算程序，而且必须与这些数据进行交互，” 德州大学奥斯汀分校综合生物学系和计算生物学及生物信息学中心的生物学家Rebecca Young说。她补充道：“这不是Lonestar、Stampede以及其他一些TACC的资源设立的目的。” Young讲述了如何第一次借助网络资源使用OrthoMCL，她只能从10个物种中找出350条类似的基因，“当我在Wrangler上运行OrthoMCL时，我能在这些物种中得到差不多2000个类似的基因，” Young说，“从已经能达到的程度来说这是一个巨大的进步，我们使用OrthoMCL的目的就是允许我们在关注这些4.5亿年进化过程中分离的相异的古老的物种时可以得到越来越多相似的基因。” “现在我们可以在任何地方15分钟到6小时之间完成这些任务了” Gaffney说：“Wrangler改变了游戏规则。” Gaffney补充说快速得到结果使科学家们通过分析大数据探索新的和更深的问题，驱动之前不能得到的发现。优化建筑的能源效率美国橡树岭国家实验室（ORNL）计算机科学家Joshua New希望利用Wrangler能力的优势驯服大数据。New是Autotune项目的主要负责人，Autotune项目创建了一个建筑物的软件模型，校准来自不同数据源的超过3000个数据输入，比如费用单，生成一个有用的信息，比如最优的节能改造是什么样的。 “Wrangler有足够的马力，我们在一次运行中可以进行许多大量的研究并得到有用的结果，”New说。他最近使用ORNL的Titan超级计算机进行500000次模拟并在68分钟时间内像磁盘写了45TB数据。他说他想扩展他的参数研究，模拟美国全部的1.251亿个建筑物。 “我认为Wrangler为我们提供了一个特殊的有利可图的市场，我们把我们的分析转向了端对端的流程，在这个流程中我们定义我们想改变的参数，”New说：“它生成了采样矩阵，他生成了输入文件，它计算所有计算上有挑战性的任务，并行运行所有的模拟仿真，它生成了输出，然后我们运行我们的人工智能和统计技术，在后端分析数据，在Wrangler以可靠的流程上自始至终做这些工作是我们非常兴奋的。” 当Gaffney说起Wrangler的存储的时候，说是非常大的数据存储空间——10拍字节基于Lustre的文件系统服务器由TACC托管，印第安纳大学有复制品。“我们希望保存数据，” Gaffney说：“Wrangler系统的建立使数据是首要的部分，在这些数据之间人们进行他们的研究，允许我们紧紧抓住数据，并与他人分享，这些正是我们希望Wrangler做的。” 解释暗能量 “数据是我们项目最大的挑战，” 德州大学奥斯汀分校天文学家Steve Finkelstein说。他的国家科学基金项目叫做HETDEX，望远镜暗能量实验。这是所尝试的最大的星系研究，科学家们希望绘制超过100万星系的三维地图，在这个过程中会发现上千个新的星系，主要的目标是研究暗能量，使星系分离的神秘的力量。 Wrangler超级计算机数据密集型超级计算机系统Wrangler正在部署 “每天晚上我们都观察——我们计划至少三年每晚观察——我们计划得到200GB的数据，”Finkelstein说。每六分钟就会测量天光的34000点的频谱。 “Wrangler是我们的解决通道，” Finkelstein说：“随着数据进来，Wrangler有一个小程序寻找新的数据，每六分钟左右的数据进来，就会处理这些数据，天亮的时候Wrangler就会得到全部的数据，发现新的星系。” 在生化资料中的人类起源 Wrangler支持另一个高性能计算的例子是一个称作PaleCore的国家科学基金支持的科学项目。该项目希望利用Wrangler的数据库的敏捷性为科学家建立一个知识库，科学家们可以在所有与人类起源有关的化石挖掘清晰额地理空间信息。这样能结合以前的数字集合方式比如Excel表单和SQL数据库，使用新的数据收集方法比如从手机或ipad上收集实时化石GPS信息。 “我们正在关联开放数据发现一个巨大的机会，” PaleCore项目负责人Denne Reed说。Reed是德州大学奥斯汀分校人类学系副教授。关联开放数据允许从看似竟然不同的数据的联系中找寻意义。“Wrangler是一个可以完成这些的平台，” Reed说，“它使我们存储大量的数据，无论是照片图像、卫星图像还是与地理空间数据相关的数据等，它还允许我们开始寻找有效的实时链接存储的其他数据的方法。” 科学数据分析 Wrangler的共享内存支持Hadoop和Apache Spark框架的数据分析，“Hadoop是一个现在所有数据科学的流行词语，” Gaffney 说，“这些我们都有，我们还可以配置这个系统，本质上像现在的谷歌搜索引擎在数据中心，最大的区别就是我们在同一时间服务少量用户，这与谷歌是不同的。” 用户以最快的方式向Wrangler存入取出数据，Wrangler连向Internet2，Internet2是向全国大部分其他学术机构每秒提供100千兆字节吞吐量的光纤网络。除此之外，TACC有工具和技术并行转换他们的数据。“有点像在超级市场，” Gaffney解释道，“如果只开通一个结账通道，最快也只有一个人结账，但如果你进去并且开通15个结账出口，可以分散人流，可以在更少的时间让更多的人通过。” 超级计算机新的用户群体生物学家、天文学家、能量效率专家和古生物学家仅仅是Wrangler试图吸引的新用户群体的一小部分。 Wrangler比典型的高性能计算更好的网络功能，门户网站允许用户管理系统，并给比如VNC、RStudio和Jupyter Notebooks的网站界面能力以支持更多类似桌面的用户与系统的交互。 “我们科学需要这些更大的系统，” Gaffney说，“我们需要更多种类的系统，我们需要更多种类的用户。这是我们正要推动这些种类门户的地方，我相信这对许多我们现在正要推进的系统将是新的面孔，更多的网络驱动，更多的图解，更少的命令行驱动。” “国家科学基金会与TACC共同分享Wrangler持续的世界领先的吞吐性能的自豪，特殊性的开放科学社区可利用的运营型资源，推动关注数据的研究，”监督NSF奖的项目官员Robert Chadduck说。 Wrangler正在引领数据密集型科学研究中计算问题，“有一些伟大的系统和伟大的研究人员为了改变我们生活的方式和我们生活的世界，正在做一些与数据有关的开创性的非常重要的工作。” Wrangler正在推进分享这些成果，所以每个人都可以看到正在发生什么。
  
  展开更多
179浏览量

0点赞

收藏

原文链接

《NVIDIA宣布CUDA支持Arm，开启实现百万兆级超级计算机的新途径》

《随着Arm HPC生态系统的发展，Fugaku再次荣登超级计算机排名榜首》

《Wrangler超级计算机加速了大数据：数据密集型超计算机为用户带来了高性能科学计算》