NVIDIA HGX 平台

加速每个数据中心的 AI 和 HPC 的发展。

概览
推理
训练
网络

概览

概览
推理
训练
网络

专为 AI 和高性能计算打造

AI、复杂的仿真和庞大的数据集需要多个具有超快互连速度的 GPU 和完全加速的软件堆栈。NVIDIA HGX™ AI 超级计算平台整合了 NVIDIA GPU、NVLink™、NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能，可提供更高的应用性能，并加快获得见解的速度。

出色的端到端加速计算平台

NVIDIA HGX 系统将 NVIDIA Blackwell Ultra GPU 与高速互联技术集成，推动数据中心迈向加速计算和生成式 AI 的新时代。Blackwell 架构的 HGX 系统是一款出色的加速纵向扩展平台，推理性能比上一代产品高 11 倍，专为要求严苛的生成式 AI、数据分析和 HPC 工作负载而设计。

NVIDIA HGX 包含高级网络选项 (速度高达 800Gb/s) ，使用 NVIDIA Quantum-X800 InfiniBand 和 Spectrum™-X 以太网实现更高的 AI 性能。HGX 还包含 NVIDIA BlueField®-3 数据处理器 (DPU) ，可在超大规模 AI 云中实现云网络、可组合存储、零信任安全性和 GPU 计算弹性。

AI 推理：性能和通用性

预测性能可能会发生变化。Token-to-token 延迟 (TTL) = 20 毫秒实时，第一个 Token 延迟 (FTL) = 5 秒，输入序列长度 = 32768，输出序列长度 = 1028，8 个 8 路 HGX H100 GPU 风冷与 1 个 HGX B300 NVL16 风冷，每个 GPU 的性能比较；使用分解推理提供服务。

实时大语言模型推理

对于 Llama 3.1 405B 等模型，HGX Blackwell 架构计算平台 NVL16 的推理性能比上一代 NVIDIA Hopper™ 提升高达 11 倍。第二代 Transformer 引擎将定制的 Blackwell Tensor Core 技术与 TensorRT™-LLM 创新相结合，加速大语言模型 (LLM) 的推理。

深度学习训练：性能和可扩展性

预测性能可能会发生变化。8 个 8 路 HGX H100 与 1 个 HGX B300 NVL16，每 GPU 性能比较。

训练性能进一步提升

第二代 Transformer 引擎采用 8 位浮点 (FP8) 和新精度，可使 Llama 3.1 405B 等大型语言模型的训练速度显著提升 4 倍。这一突破还得到了第五代 NVLink 的强力加持，这一代 NVLink 可提供速度为 1.8TB/s 的 GPU 间直接互连、InfiniBand 网络和 NVIDIA Magnum IO™ 软件。这些因素将共同确保企业和广泛的 GPU 计算集群具备高效的可扩展性。

借助 NVIDIA 网络来加速 HGX

数据中心是新的计算单元，而网络在大幅提升整个数据中心的应用性能方面发挥着不可或缺的作用。与 NVIDIA Quantum InfiniBand 搭配使用时，HGX 可提供卓越的性能和效率，确保计算资源得到充分利用。

对于部署以太网的 AI 云数据中心，最好将 HGX 与 NVIDIA Spectrum-X™ 网络平台结合使用，该平台通过以太网提供更高的 AI 性能。它采用 Spectrum-X 交换机和 NVIDIA SuperNIC™，可实现出色的资源利用率和性能隔离，为各种规模的数千个同步 AI 作业提供一致、可预测的结果。Spectrum-X 支持先进的云多租户和零信任安全性。作为参考设计，NVIDIA 设计了 Israel-1，这是一款超大规模生成式 AI 超级计算机，采用基于 NVIDIA HGX 8-GPU 平台的 Dell PowerEdge XE9680 服务器、BlueField-3 SuperNIC 和 Spectrum-4 交换机构建。

NVIDIA HGX 规格

NVIDIA HGX 采用单一基板，配备 8 个 NVIDIA Blackwell GPU、4 个或 8 个 Hopper GPU 或 16 个 Blackwell Ultra GPU。这些强大的硬件和软件组合为打造强劲的 AI 超级计算平台奠定了基础。

Blackwell
Hopper

	HGX B300 NVL16	HGX B200
外形规格	16x NVIDIA Blackwell Ultra GPU	8x NVIDIA Blackwell GPU
FP4 Tensor Core**	144 PFLOPS \| 105 PFLOPS	144 PFLOPS \| 72 PFLOPS
FP8/FP6 Tensor Core*	72 PFLOPS	72 PFLOPS
INT8 Tensor Core*	2 POPS	72 POPS
FP16/BF16 Tensor Core*	36 PFLOPS	36 PFLOPS
TF32 Tensor Core*	18 PFLOPS	18 PFLOPS
FP32	600 TFLOPS	600 TFLOPS
FP64/FP64 Tensor Core	10 TFLOPS	296 TFLOPS
总显存	最高 2.3 TB	1.4 TB
NVLink	第五代	第五代
NVIDIA NVSwitch™	NVLink 5 Switch	NVLink 5 Switch
NVSwitch 互联 GPU 间带宽	1.8 TB/s	1.8 TB/s
NVLink 总带宽	14.4 TB/s	14.4 TB/s
网络带宽	1.6 TB/s	0.8 TB/s
Attention Performance	2X	1X

* 采用稀疏技术
** 采用稀疏技术 | 未采用稀疏技术

查看 NVIDIA Blackwell 数据表

	HGX H200
	4-GPU	8-GPU
外形规格	4x NVIDIA H200 SXM	8x NVIDIA H200 SXM
FP8 Tensor Core*	16 PFLOPS	32 PFLOPS
INT8 Tensor Core*	16 POPS	32 POPS
FP16/BF16 Tensor Core*	8 PFLOPS	16 PFLOPS
TF32 Tensor Core*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
总显存	564 GB HBM3	1.1 TB HBM3
GPU Aggregate Bandwidth	19 GB/s	38 GB/s
NVLink	第四代	第四代
NVSwitch	N/A	NVLink 4 Switch
NVSwitch GPU 到 GPU 的带宽	N/A	900 GB/s
总聚合带宽	3.6 TB/s	7.2 TB/s
网络带宽	0.4 TB/s	0.8 TB/s

	HGX H100
	4-GPU	8-GPU
外形规格	4x NVIDIA H100 SXM	8x NVIDIA H100 SXM
FP8 Tensor Core*	16 PFLOPS	32 PFLOPS
INT8 Tensor Core*	16 POPS	32 POPS
FP16/BF16 Tensor Core*	8 PFLOPS	16 PFLOPS
TF32 Tensor Core*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
总显存	320 GB HBM3	640 GB HBM3
GPU Aggregate Bandwidth	13 GB/s	27 GB/s
NVLink	第四代	第四代
NVSwitch	N/A	NVLink 4 Switch
NVSwitch GPU 到 GPU 的带宽	N/A	900 GB/s
总聚合带宽	3.6 TB/s	7.2 TB/s
网络带宽	0.4 TB/s	0.8 TB/s

* 采用稀疏技术

查看 NVIDIA HGX H100 和 HGX H200 数据表

详细了解 NVIDIA Blackwell 架构

了解详情