NVIDIA HGX-2

采用 NVIDIA Tesla V100 GPU 和 NVSwitch 技术

全球超强劲的 AI 和 HPC 专用云服务器平台

我们正处于智能新时代的黎明前夜,深度学习、机器学习和高性能计算 (HPC) 正在改变世界。从自动驾驶汽车和零售物流优化到全球气候模拟,新的挑战层出不穷,而且需要庞大的计算资源才能加以解决。NVIDIA HGX-2 是性能超强的纵向扩展式加速服务器平台。它设计为具备混合精度计算能力,通过加速处理各种工作负载解决这些巨大的挑战。HGX-2 平台曾在 MLPerf(全行业首个 AI 基准测试)中夺得桂冠 - 它具有最高的单节点性能,并证明了自身是功能超强、用途广泛的可扩展计算平台。

“全球超大型 GPU”

HGX-2 由 16 块 NVIDIA® Tesla® V100 GPU 和 NVIDIA NVSwitch™ 助力加速,拥有卓越的计算能力、带宽和内存拓扑结构,能够更快且更高效地训练这些模型。16 块 Tesla V100 GPU 作为一个统一的加速器协调运作,性能可达 2 petaFLOP,GPU 总显存高达 0.5 兆兆字节 (TB),因而能够处理计算量巨大的工作负载,并可发挥“全球超大型 GPU”的超强功能。

全球超大型 GPU
AI Training: HGX-2 Replaces 300 CPU-Only Server Nodes

助力下一代 AI 取得更出众的性能

AI 模型的复杂程度正呈爆炸式增长,且需配备大容量内存及多个 GPU 并需在 GPU 之间建立极速连接才能正常运作。HGX-2 利用 NVSwitch 连接所有 GPU 并拥有统一显存,能够有效处理这些新模型,从而加快先进 AI 的训练速度。一台 HGX-2 可取代 300 台采用 CPU 技术的服务器,因而能够大幅节省数据中心所用成本和空间并降低能耗

HPC: HGX-2 Replaces 60 CPU-Only Server Nodes

性能出众的 HPC 超节点

HPC 应用程序需要配备拥有强大计算能力的服务器节点,方可在每秒内执行海量计算。增加每个节点的计算密度可大幅减少所需的服务器数量,因而能够极大节省数据中心所用成本和空间并降低功耗。在 HPC 模拟方面,高维矩阵乘法需要每台处理器从众多相邻处理器中提取数据以便开展计算,因而经由 NVSwitch 连接的 GPU 能够为其提供理想选择。一台 HGX-2 服务器可取代 60 台 CPU 服务器。

借助 NVSwitch 实现全带宽计算的全球超大型 GPU

NVSwitch 能使所有 GPU 以 2.4 TB/秒的全带宽进行相互通信,以此解决一些重大的 AI 和 HPC 问题。每个 GPU 均可完全访问高达 0.5 TB 的 HBM2 总内存,以此处理庞大的数据集。通过启用统一的服务器节点,NVSwitch 能够极大加速复杂的 AI 和 HPC 应用程序。

借助 NVSwitch 实现全带宽计算的全球超大型 GPU

HGX-1 与 HGX-2 对比表

HGX-1 HGX-2
性能 1 petaFLOP tensor operations
125 teraFLOPS single-precision
62 teraFLOPS double-precision
2 petaFLOPS tensor operations
250 teraFLOPS single-precision
125 teraFLOPS double-precision
GPUs 8 块 NVIDIA Tesla V100 16 块 NVIDIA Tesla V100
GPU 内存 共 256 GB 共 512 GB
NVIDIA CUDA® 核心数量 40,960 81,920
NVIDIA Tensor 核心数量 5,120 10,240
通信渠道 采用 NVLink 技术的混合立体网络 总速度为 300Gb/秒 采用 NVLink 技术的 NVSwitch 总速度为 2.4TB/秒

HGX-1 推理架构

采用 NVIDIA Tesla GPU 和 NVLink 技术

第一代 NVIDIA HGX-1 是一种推理架构,该架构规定了在云端加速 AI 的数据中心的设计标准。HGX-1 的模块化设计基于 8 块 Tesla SXM2 V100 或 P100 基板和一个可扩展的混合立体网络拓扑结构并拥有 1 petaFLOP 的计算能力,能够完全契合超大规模数据中心的运作模式并可提供一条通往 AI 的快速简易途径。

增强数据中心生态系统功能

NVIDIA 正与世界领先的制造商合作,携手加速推进 AI 云计算。NVIDIA 能够为合作伙伴提供 HGX-2 GPU 基板和设计指南,并且这些合作伙伴可以抢先体验 GPU 计算技术,以便将这些计算技术集成在服务器中以及大规模部署至数据中心生态系统中。

增强数据中心生态系统功能

注册以获得数据中心相关消息

了解高性能计算、深度学习和人工智能的最新进展。