NVIDIA VOLTA 架构中的 TENSOR 核心

深度学习的下一世代

NVIDIA® Tesla® V100 GPU 采用 NVIDIA Volta 这一革命性全新 GPU 架构。其配备的流多处理器效率相较前代的 NVIDIA® PascalTM 架构提升 50%,大幅增强了 32 位浮点精度 (FP32) 和 64 位浮点精度 (FP64) 性能。那么最大的提升是?Tensor 核心的引入。

训练和推理方面的突破

专为深度学习设计的新 Tensor 核心在训练方面可提供高达 12 倍的 teraflops (TFLOPS) 峰值,而在推理方面则可提供 6 倍的 TFLOPS 峰值。这项关键功能使得 Volta 相较上代产品可提供 3 倍的性能加速。

Tesla V100 所含的 640 个 Tensor 核心每个都在 4x4 矩阵中运行,而及其关联的数据路径经自定义设计,可以较高能效大幅增加浮点计算吞吐量。

效率与性能增长

效率与性能增长

Volta 拥有 640 个Tensor 核心,每个 Tensor 核心每个时钟周期可执行 64 次浮点混合乘加 (FMA) 运算。从而为训练和推理应用程序提供高达 125 TFLOPS 的计算性能。这意味着开发人员可以使用混合精度(FP16 计算使用 FP32 累加)执行深度学习训练,从而实现比上一代产品快 3 倍的性能,并可收敛至网络预期准确度。

3 倍的性能加速就是 Tensor 核心技术带来的关键突破。现在,仅数小时用户即可开始深度学习研究。

计算性能的显著增强

阅读 Tensor 核心和 NVIDIA Volta 架构的白皮书。