NVIDIA集成AI超算中心经验，打造AI就绪型数据中心

发布时间：2019-08-01 00:07:32 所属栏目：资本来源：智东西

导读：副标题#e# 传统数据中心向人工智能（AI）转型已是大势所趋。一方面，从智能客服、智能安防、智能风控、智能运维到智能质检，愈加丰富的智能化应用致使存储需求呈现指数级增长，并对数据中心的算力提出新的挑战。另一方面，AI 正打破传统数据中心的管理和

副标题[/!--empirenews.page--]

传统数据中心向人工智能（AI）转型已是大势所趋。

一方面，从智能客服、智能安防、智能风控、智能运维到智能质检，愈加丰富的智能化应用致使存储需求呈现指数级增长，并对数据中心的算力提出新的挑战。

另一方面，AI 正打破传统数据中心的管理和运营模式，完成更为精准的系统调优、故障预判等任务，替代更多人力，减少能耗和资源浪费，更大程度释放生产力。

作为 AI 时代的基础设施，AI 硬件正成为越来越多数据中心扩容建设的关键所在。尤其是能源、银行、保险、制造、电信、医疗等重度存储用户，急需加速 AI 的基础架构方案。

当超强计算力成为数据中心的刚需，NVIDIA GPU 凭借强大的并行计算和浮点能力突破了深度学习的算力瓶颈，成为 AI 硬件的首选。

然而，对于许多传统数据中心而言，部署包含 AI 硬件的基础设施，需要耗费许多时间与人力。

对此，NVIDIA 基于 GPU 软硬件生态系统，提供了一站式交付节点解决方案 DGX POD。

这一方案可以大大节省构建基础设施所花费的时间，帮助数据中心轻松快速进行 AI 部署，为扩展多 GPU 服务器节点提供更多支持。

本期的智能内参，我们推荐《NVIDIA DGX POD 数据中心参考设计》白皮书，从传统数据中心的 AI 转型之困着手，结合 DGX POD 的应用实例，解读 NVIDIA DGX POD 交付节点的核心亮点，为亟待快速转型 AI 的数据中心架构师，以及准备构建 AI 就绪型数据中心提供参考。如需查阅此白皮书《NVIDIA DGX POD 数据中心参考设计》，可直接点击：NVIDIA DGX POD 数据中心参考设计白皮书 - 白皮书下载 - 英伟达AI计算专区 - 智东西下载。

以下为智能内参整理呈现的干货：

NVIDIA集成AI超算中心经验，打造AI就绪型数据中心

数据中心 AI 转型遭遇困局

大数据、AI 与云计算等新兴技术卷起新的浪潮，在各类数据中心中形成连锁反应。海量数据处理任务涌入数据中心，面对人工智能应用的训练和推理，令传统的CPU 服务器难以招架。

深度学习算法属于计算密集型算法，与 NVIDIA GPU 计算架构十分契合。过去 CPU 需要花数十天完成的计算任务，通用 GPU 只用几小时就能完成，这大幅提升深度学习等并行处理数据方法的计算效率，使得以 GPU 为基础的设备日渐成为各大数据中心进行深度学习训练的首选。

然而，即便部署了强大的硬件设备，也不意味着数据中心的 AI 转型计划就万事俱备了，还有一个关键问题摆在眼前——架构设计。

数据中心需要考虑的因素远不止算力，还需兼顾网络、存储、电源、散热、管理和软件等方面问题。

硬件组合不是简单粗暴的积木堆叠，并不是说计算节点越多，性能就会随之线性增长。其计算性能会受制于高速互联网络，一旦出现数据拥堵，整机系统的效率都可能被拖累。另外，过多计算硬件堆叠，可能导致功耗过大，不利于日后的运营。

因此，数据中心必须思考如何打造了降本增效的最佳方式，将各种硬件资源协同组合，在稳定安全的状态下，以超低延迟和高带宽访问数据集。

这对于缺乏 AI 部署经验的传统数据中心而言，无疑是个不小的挑战。如果 DIY GPU 计算节点，不仅需要耗费人力和时间成本，还要考虑计算、存储、交换机等各种硬件设备的集成兼容问题。

对于这一痛点，NVIDIA 提供了一个颇有吸引力的解决方案。

它通过与领先的存储、网络交换技术提供商合作，提供一系列 DGX POD 数据中心交付节点设计参考架构，将 NVIDIA 长期积累的超大规模数据中心 AI 部署经验，转化为可复制方案，无论是大中小型数据中心，均可以直接参考使用。

NVIDIA集成AI超算中心经验，打造AI就绪型数据中心

NVIDIA AI 超级计算机构建经验转换

DGX POD 交付节点（Point of Delivery）是一种经优化的数据中心机架，包含多台 DGX-1 或 DGX-2 服务器、存储服务器和网络交换机等最佳实践。

NVIDIA集成AI超算中心经验，打造AI就绪型数据中心

▲ DGX POD 参考架构正面图

这是 NVIDIA 构建大量超大规模 GPU 加速计算节点的经验之集大成者。NVIDIA 曾建立了大型的 AI 数据中心，包含数千台领先的 DGX 服务器加速计算节点。

今年6月，NVIDIA 宣布推出全球速度排名第22位的超级计算机 DGX SuperPOD，为企业快速部署自动驾驶汽车项目，提供同等大小的超算无法匹敌的 AI 性能。

SATURNV 亦是 NVIDIA 基于 DGX 系统构建的 AI 超级计算机，支持自动驾驶汽车、机器人、显卡、HPC 等多领域的 NVIDIA 内部 AI 研发。早在2016年推出之际，DGX SATURNV 就登上 Green 500 超算榜第一，被评为全球最经济高效的超算，整体运算速度位列第28位，是最快的 AI 超算。

基于使用 SATURNV 所遵循的设计原则和架构，NVIDIA 在短短三周内就打造出一套基于 NVIDIA DGX-2 配置的全新系统 DGX SuperPOD。近期 NVIDIA 借助一套基于 DGX-2 的配置在 MLPerf 基准测试中创下六项 AI 性能记录。

在将 DGX SATURAN 打造成所有企业都可复制的、经验证的设计过程中，NVIDIA 经过实地检验积累了丰富的经验，并将计算、网络、存储等多方面的最佳实践，集中于 NVIDIA DGX POD 的设计之中。

如今，包括 Arista、思科、DDN、Dell EMC、IBM Storage、Mellanox、NetApp 和 Pure Storage 等在内的业内数据中心领导者已围绕 DGX POD，推出了基于其各自特有技术的相关产品。

这些集成系统均为客户提供经过经验验证的可靠方法，这意味着，每个企业都能量身定制完全适配自身需求的 AI 超算中心。

例如，基于 DGX POD，NetApp 推出了 NetApp ONTAP AI 融合基础架构。其由 NVIDIA DGX-1 服务器、 NetApp 云互联存储系统提供支持，是 NVIDIA 和 NetApp 联合开发和验证的架构。

借助这一架构，企业可以从小规模起步进行无缝扩展，智能管理跨边缘、核心和云以及反向数据传输的完整深度学习数据管道，简化 AI 部署。

（编辑：源码网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/4

尾页