NVIDIA HGX AI 超级计算机

先进的 AI 计算平台。

专为 AI 和 HPC 而打造

AI、复杂模拟和海量数据集需要多个具有极快互连速度的 GPU 和完全加速的软件堆栈。NVIDIA HGX™ AI 超级计算平台整合了 NVIDIA GPU、 NVLink®、NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能,可提供最高的应用性能并加快获得见解的速度。

卓越的端到端加速计算平台

NVIDIA HGX 将 NVIDIA Blackwell Tensor Core GPU 与高速互连技术相集成,推动数据中心迈向加速计算和生成式 AI 的新时代。基于 Blackwell 的 HGX 系统是一流的加速纵向扩展平台,其推理性能比上一代提高了 15 倍,专为要求严苛的生成式 AI、数据分析和 HPC 工作负载而设计。

NVIDIA HGX 提供高级网络选项,速度最高可达 400 Gb/s,凭借 NVIDIA Quantum-2 InfiniBand 和 Spectrum® -X 以太网实现出色 AI 性能。HGX 还包含 NVIDIA® BlueField® -3 数据处理器 (DPU),有助于在超大规模 AI 云中实现云网络、可组合存储、零信任安全性和 GPU 计算弹性。

深度学习推理:性能和多功能性

预测性能可能会发生变化。Token 至 Token 延迟 (TTL) = 50 毫秒(实时),第一个 Token 延迟 (FTL) = 5 秒,输入序列长度 = 32768,输出序列长度 = 1028,8 个 8 路 NVIDIA HGX™ H100 GPU

适用于新一代大型语言模型的实时推理

对于 GPT-MoE-1.8T 等大规模模型,HGX B200 可实现的推理性能比上一代 NVIDIA Hopper™ 提升了 15 倍。第二代 Transformer 引擎采用定制的 Blackwell Tensor Core 技术,并结合 TensorRT™-LLM 和 Nemo™ 框架创新,加速了大语言模型 (LLM) 和多专家 (MoE) 模型的推理。

深度学习训练:性能和可扩展性

预计性能可能会发生变化。32768 GPU 规模、4096 个 8 路 HGX H100 风冷式集群:400G InfiniBand (IB) 网络;4096 个 8 路 HGX B200 风冷式集群:400G IB 网络。

训练性能进一步提升

第二代 Transformer 引擎采用 8 位浮点 (FP8) 和新精度,可使 GPT-MoE-1.8T 等大型语言模型的训练速度显著提升 3 倍。这一突破还得到了第五代 NVLink 的强力加持,这一代 NVLink 可提供速度为 1.8TB/s 的 GPU 间直接互连、InfiniBand 网络和 NVIDIA Magnum IO™ 软件。这些因素将共同确保企业和广泛的 GPU 计算集群具备高效的可扩展性。

借助 NVIDIA 网络来加速 HGX

数据中心是新的计算单元,而网络在大幅提升整个数据中心的应用性能方面发挥着不可或缺的作用。与 NVIDIA Quantum InfiniBand 搭配使用时,HGX 可提供卓越的性能和效率,确保计算资源得到充分利用。

对于部署以太网的 AI 云数据中心,最好将 HGX 与 NVIDIA Spectrum-X 网络平台结合使用,该平台可通过 400Gb/s 以太网助力实现超高 AI 性能。Spectrum-X 采用 NVIDIA Spectrum™-4 交换机和 BlueField-3 DPU,能够借助超高的资源利用率和卓越的性能隔离,为各种规模、数以千计的并发 AI 作业提供一致且可预测的结果。Spectrum-X 有助于实现先进的云多租户技术和出色的零信任安全性。作为 NVIDIA Spectrum-X 的参考设计,NVIDIA 设计了 Israel-1。Israel-1 是一款超大规模的生成式 AI 超级计算机,采用基于 NVIDIA HGX H200 或 H100 平台(8 个 GPU)、BlueField-3 DPU 和 Spectrum-4 交换机的 Dell PowerEdge XE9680 服务器构建。

将 HGX 与 NVIDIA 网络相连

  NVIDIA Quantum-2 InfiniBand 平台:

Quantum-2 交换机, ConnectX-7 适配器, BlueField-3 DPU

NVIDIA Spectrum-X 平台:

Spectrum-4 交换机,BlueField-3 SuperNIC

NVIDIA Spectrum 以太网平台:

Spectrum 交换机,ConnectX 适配器,BlueField DPU

深度学习训练 最佳 更佳 适用
科学计算模拟 最佳 更佳 适用
数据分析 最佳 更佳 适用
深度学习推理 最佳 更佳 适用

NVIDIA HGX 规格

NVIDIA HGX 采用单一基板,配备 4 个 H200 或 H100 GPU 或是 8 个 Blackwell  GPU。这些强大的硬件和软件组合为打造强劲的 AI 超级计算平台奠定了基础。

  HGX B200 HGX B100
外形规格 8x NVIDIA B200 SXM 8x NVIDIA B100 SXM
FP4 Tensor Core* 144 PFLOPS 112 PFLOPS
FP8/FP6 Tensor Core* 72 PFLOPS 56 PFLOPS
INT8 Tensor Core* 72 POPS 56 POPS
FP16/BF16 Tensor Core* 36 PFLOPS 28 PFLOPS
TF32 Tensor Core* 18 PFLOPS 14 PFLOPS
FP32 640 TFLOPS 480 TFLOPS
FP64 320 TFLOPS 240 TFLOPS
FP64 Tensor Core 320 TFLOPS 240 TFLOPS
显存 Up to 1.5TB Up to 1.5TB
NVLink 第五代 第五代
NVIDIA NVSwitch™ 第四代 第四代
NVSwitch 互联 GPU 间带宽 1.8TB/秒 1.8TB/秒
聚合总带宽 14.4TB/秒 14.4TB/秒
  * HGX H200
  4-GPU 8-GPU
GPUs HGX H200 4-GPU HGX H200 8-GPU
外形规格 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
FP8/FP6 Tensor Core 16 PFLOPS 32 PFLOPS
INT8 Tensor Core 16 POPS 32 POPS
FP16/BFLOAT16 Tensor Core 8 PFLOPS 16 PFLOPS
TF32 Tensor Core 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
显存 Up to 564GB Up to 1.1TB
NVLink 第四代 第四代
NVSwitch N/A 第三代
NVSwitch GPU 到 GPU 的带宽 N/A 900GB/s
总聚合带宽 3.6TB/s 7.2TB/s
  * HGX H100
  4-GPU 8-GPU
GPUs HGX H100 4-GPU HGX H100 8-GPU
外形规格 4x NVIDIA H100 SXM 8x NVIDIA H100 SXM
HPC 和 AI 计算 (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
FP8/FP6 Tensor Core 16 PFLOPS 32 PFLOPS
INT8 Tensor Core 16 POPS 32 POPS
FP16/BFLOAT16 Tensor Core 8 PFLOPS 16 PFLOPS
TF32 Tensor Core 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
显存 Up to 320GB Up to 640GB
NVLink 第四代 第四代
NVSwitch N/A 第三代
NVLink Switch N/A N/A
NVSwitch GPU 到 GPU 的带宽 N/A 900GB/s
总聚合带宽 3.6TB/s 7.2TB/s

了解有关 NVIDIA H200 Tensor Core GPU 的更多信息。