MLPerf 基准测试

NVIDIA AI 平台在 MLPerf 训练和推理方面表现出色，并在处理要求极为严苛的现实 AI 工作负载方面展示出先进的性能和通用性。

关于 MLPerf
基准测试
我们的成果
我们的实现方式

关于 MLPerf

关于 MLPerf
基准测试
我们的成果
我们的实现方式

什么是 MLPerf？

MLPerf™ 基准测试由来自学术界、研究实验室和行业的 AI 领导者联盟 MLCommons 开发，旨在对硬件、软件和服务的训练和推理性能进行无偏评估。它们都在规定的条件下进行。为了保持在行业趋势的前沿，MLPerf 不断发展，定期举行新的测试，并添加代表 AI 技术水平的新工作负载。

查尔姆斯理工大学是瑞典领先的科研机构之一，专门从事纳米技术、气候研究等多个领域的研究工作。随着我们引入 AI 来推进研究工作，我们发现 MLPerf 基准测试提供了跨多个 AI 平台的透明同类比较，以展示在各种真实用例中的实际性能。

— 瑞典查尔姆斯理工大学

台积电正在推动全球半导体制造领域前沿技术的发展，比如我们最新的 5 纳米节点在工艺技术方面引领市场发展。基于机器学习的光刻和蚀刻建模等创新技术能够显著提高我们的光学邻近效应修正 (OPC) 和蚀刻模拟的准确性。为充分发挥机器学习在模型训练和推理中的潜力，我们正与 NVIDIA 工程团队开展合作，将我们的 Maxwell 模拟和反演光刻技术 (ILT) 引擎移植到 GPU，从而实现显著加速。MLPerf 基准测试是我们决策制定中的一个重要因素。

— 美国加利福尼亚州圣何塞市台积电 OPC 部门总监 Danping Peng 博士

计算机视觉和成像是 AI 研究的核心，能够推动科学发现并随时展示医疗保健的核心组件。我们与 NVIDIA 密切合作，将 3DUNet 等创新引入医疗健康市场。符合行业标准的 MLPerf 基准测试可为 IT 组织和开发者提供相关性能数据，以获得适当的解决方案来加速其特定项目和应用。

— Klaus Maier-Hein 德国癌症研究中心 (DKFZ 医疗图像计算部门主管)

作为研发和制造领域的领军企业，三星使用 AI 来显著提升产品性能和制造生产力。实现这些 AI 进展要求我们拥有上佳计算平台。MLPerf 基准测试可为我们提供开放、直接的评估方法，统一评估各平台，从而简化我们的选择流程。

— 三星电子

Slide 1
Slide 2
Slide 3
Slide 3

深入了解 MLPerf 基准测试

MLPerf Inference v4.1 可测量九种不同基准测试的推理性能，包括数个大语言模型 (LLM)、文本转图像、自然语言处理、推荐系统、计算机视觉和医疗图像分割。

MLPerf Training v4.1 可测量七种不同基准测试的训练时间，包括 LLM 预训练、LLM 微调、文本转图像、图形神经网络 (GNN)、计算机视觉、推荐和自然语言处理。

MLPerf HPC v3.0 可测量四种不同的科学计算用例的训练性能，包括气候大气河流识别、宇宙学参数预测、量子分子建模和蛋白质结构预测。

大语言模型

已基于大型数据集进行训练的深度学习算法，可以为多种用例识别、总结、翻译、预测和生成内容。
详细信息。

文本转图像

根据文本提示生成图像。
详细信息。

目标检测 (轻量级)

在图像或视频中查找真实目标的实例（如人脸、自行车和建筑物等），并为每个目标指定边界框。
详细信息。

图形神经网络

使用旨在处理以图形表示的数据的神经网络。
详细信息。

图像分类

MLPerf Inference 将 ResNet v1.5 与 ImageNet 数据集结合起来使用。
详细信息。

自然语言处理 (NLP)

根据一段文本中不同字词之间的关系来理解文本。可用于回答问题、解释句子和许多与语言相关的其他用例。
详细信息。

生物医学图像分割

为医疗用例执行密集型 3D 图像的立体分割。
详细信息。

Climate Atmospheric River Identification Category

气候大气河流识别

识别气候仿真数据中的飓风和气候大气河流。
详细信息。

宇宙学参数预测

解决宇宙学数据的 3D 图像回归问题。
详细信息。

量子分子建模

预测能量或分子构型。
详细信息。

蛋白质结构预测

根据一维氨基酸连接预测三维蛋白质结构。
详细信息。

NVIDIA MLPerf 基准测试结果

训练
推理
HPC

NVIDIA HGX™ Blackwell 架构平台由 NVIDIA Blackwell GPU、第五代 NVLink™ 和最新 NVLink Switch 提供支持，为 MLPerf Training v4.1 中的 LLM 训练带来了又一次巨大飞跃。通过坚持不懈的数据中心规模全栈工程，NVIDIA 将继续突破生成式 AI 训练性能极限，加速创建和定制日益强大的 AI 模型。

NVIDIA Blackwell 强效助力 LLM 训练

NVIDIA Blackwell Supercharges LLM Training

MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 http://www.mlcommons.org，来自以下条目：可用类别下 4.1-0060（HGX H100，2024，512 个 GPU）以及预览类别下 4.1-0082（HGX B200，2024，64 个 GPU）。MLPerfTM Training v3.0 结果用于 HGX H100（2023，512 个 GPU），检索自条目 3.0-2069。HGX A100 结果（使用 512 个 GPU）未经 MLCommons Association 验证。每个 GPU 的标准化性能并非 MLPerf™ Training 的主要指标。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 http://www.mlcommons.org。

NVIDIA 保持规模级最佳性能

采用 NVIDIA Hopper™ GPU、第四代 NVLink 和第三代 NVSwitch™ 以及 Quantum-2 InfiniBand 的 NVIDIA 平台在 MLPerf Training v4.1 中继续表现出卓越性能和多功能性。NVIDIA 在所有七项基准测试中均保持了规模级的记录。

超大规模性能

基准测试	训练时间	GPUs 数量
LLM (GPT-3 175B)	3.4 分	11,616
LLM 微调 (Llama 2 70B-LoRA)	1.2 分	1,024
文本转图像 (Stable Diffusion v2)	1.4 分	1,024
图形神经网络 (R-GAT)	0.9 分	512
推荐系统 (DLRM-DCNv2)	1.0 分	128
自然语言处理 (BERT)	0.1 分	3,472
物体检测 (RetinaNet)	0.8 分	2,528

MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 https://www.mlcommons.org，来自以下条目：4.1-0012、4.1-0054、4.1-0053、4.1-0059、4.1-0055、4.10058、4.1-0056。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 https://www.mlcommons.org。

在首次亮相的 MLPerf 推理测试中，NVIDIA Blackwell 平台采用了 NVIDIA Quasar 量化系统，与上一代 Tensor Core GPU 相比，LLM 性能提升达 4 倍。在现有解决方案中，基于 NVIDIA Hopper 体系架构的 NVIDIA Tensor Core GPU 在所有三项 LLM 基准测试（包括 Llama 2 70B、GPT-J 和新添加的混合专家 LLM Mixtral 8x7B）以及 Stable Diffusion XL 文本转图像基准测试中针对生成式 AI 提供了最高的每 GPU 性能。通过坚持不懈的软件优化，NVIDIA Tensor Core GPU 的性能在不到六个月内提高了 27%。对于边缘生成式 AI，NVIDIA Jetson Orin™ 提供了优异的结果，仅在一轮 GPT-J 测试中，就将吞吐量提高了 6 倍以上，并将延迟降低了 2.4 倍。

NVIDIA Blackwell 实现 LLM 推理性能的巨大飞跃

服务器

10756 Token/秒
每 GPU

离线

3.7X

11264 Token/秒
每 GPU

AI 超级芯片

208B 晶体管

第二代 Transformer 引擎

FP4/FP6 Tensor Core

第五代 NVLINK

扩展到 576 个 GPU

RAS 引擎

100% 系统内自检

安全 AI

全性能加密和 TEE

解压缩引擎

800 GB/秒

MLPerf Inference v4.1 已关闭、数据中心。结果于 2024 年 8 月 28 日检索自 https://mlcommons.org。Blackwell 结果在单个 GPU 上进行测量，并检索自条目 4.1-0074 的已关闭、预览类别。H100 结果检索自条目 4.1-0043，位于 8x H100 系统的已关闭、可用类别，并除以 GPU 数量以获得每个 GPU 的比较结果。每个 GPU 的吞吐量不是 MLPerf Inference 的主要指标。MLPerf 名称和徽标为 MLCommons Association 在美国和其他国家/地区的注册和未注册商标。保留所有权利。未经授权严禁使用。详情请参见 https://mlcommons.org。

NVIDIA Tensor Core GPU 在每项基准测试中实现了出色的多 GPU 推理吞吐量

基准测试	离线	服务器
Llama 2 70B	34864 token/秒	32790 tokens/秒
Mixtral 8x7B	59022 token/秒	57177 tokens/秒
GPT-J	20086 token/秒	19243 token/秒
Stable Diffusion XL	17.42 样本/秒	16.78 查询/秒
DLRMv2 99%	637342 样本/秒	585,02 查询/秒
DLRMv2 99.9%	390953 样本/秒	370083 查询/秒
BERT 99%	73310 样本/秒	57609 查询/秒
BERT 99.9%	63950 样本/秒	51212 查询/秒
RetinaNet	14439 样本/秒	13604 查询/秒
ResNet-50 v1.5	756960 样本/秒	632229 查询/秒
3D U-Net	54.71 样本/秒	非基准测试的一部分

MLPerf Inference v4.1 已关闭、数据中心。结果于 2024 年 8 月 28 日检索自 https://mlcommons.org。所有结果均使用 8 个 GPU，并检索自以下条目：4.1-0046、4.1-0048、4.1-0050。MLPerf 名称和徽标为 MLCommons Association 在美国和其他国家/地区的注册和未注册商标。保留所有权利。未经授权严禁使用。详情请参见 https://mlcommons.org。

首次在 MLPerf HPC v3.0 中亮相时，NVIDIA Tensor Core GPU 便为适用于 HPC 和 AI 的 NVIDIA 平台注入了强劲动力，使训练速度在短短三年内提高了 16 倍，并且对于所有工作负载，在训练时间和吞吐量指标方面均取得了出色表现。对于气候分段、宇宙学参数预测、量子分子建模，以及最新添加的蛋白质结构预测等各种 MLPerf HPC 工作负载，NVIDIA 平台都提交了结果。NVIDIA 平台的卓越性能和通用性使其成为助力下一波 AI 赋能科学发现浪潮的首选工具。

性能在 3 年内提升至原来的 16 倍

NVIDIA 全栈创新助推性能提升

MLPerf™ HPC v3.0 结果是在 2023 年 11 月 8 日从 https://mlcommons.org 上检索到的。结果是从以下条目检索到的：0.7-406、0.7-407、1.0-1115、1.0-1120、1.0-1122、2.0-8005、2.0-8006、3.0-8006、3.0-8007、3.0-8008。v1.0 中的 CosmoFlow 分数已标准化为 MLPerf HPC v2.0 中引入的新 RCP。 v0.7、v1.0 和 v2.0 的分数经过了调整，以从基准中删除数据暂存时间，这与 v3.0 采用的新规则一致，以便在提交轮次之间进行公平比较。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。严禁未经授权使用。详情请参见 https://mlcommons.org。

MLPerf™ HPC v3.0 结果是在 2023 年 11 月 8 日从 https://mlcommons.org 检索到的。结果是从以下条目检索到的：3.0-8004、3.0-8009 和 3.0-8010。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。严禁未经授权使用。详情请参见 https://mlcommons.org。

助力实现出色结果的技术

AI 的复杂性要求平台的各个方面紧密集成。正如 MLPerf 基准测试所示，NVIDIA AI 平台凭借世界上最先进的 GPU、强大且可扩展的互连技术和尖端软件，提供了领先的性能——这是一个端到端的解决方案，可以在数据中心、云端或边缘部署，并取得出色的效果。

Pre-trained models and Optimized Software from NVIDIA NGC

经过优化的软件，加速 AI 工作流

NGC™ 目录是 NVIDIA 平台以及 MLPerf 训练和推理结果的重要组成部分，它是 GPU 优化的 AI、高性能计算 (HPC) 和数据分析软件的中心，可简化和加速端到端工作流。凭借 150 多个企业级容器（包括适用于生成式 AI、对话式 AI 和推荐系统的工作负载）、数百个 AI 模型，以及可在本地、云或在边缘部署的行业特定 SDK，NGC 助力数据科学家、研究人员和开发者以超乎寻常的速度构建强大的解决方案、收集见解，并以更快的速度提供业务价值。

访问 NGC 目录

领先的 AI 基础架构

要在训练和推理方面获得领先的结果，需要专为应对复杂的 AI 挑战而构建的基础设施。NVIDIA AI 平台在 NVIDIA Blackwell 平台、Hopper 平台、NVLink™, NVSwitch™和 Quantum InfiniBand 的支持下提供了领先的性能。这些都是 NVIDIA 数据中心平台的核心，也是我们基准测试性能背后的引擎。

此外，NVIDIA DGX™ 系统可提供可扩展性、快速部署和惊人的计算能力，使每个企业都能构建领先的 AI 基础设施。

详细了解 NVIDIA 的数据中心平台

借助变革性性能解锁边缘生成式 AI

NVIDIA Jetson Orin 提供无与伦比的 AI 计算能力、大容量统一内存和全面的软件堆栈，可提供卓越的能效以推动最新的生成式 AI 应用。它能够快速推理任何由 Transformer 架构驱动的生成式 AI 模型，在 MLPerf 上提供卓越的边缘性能。

详细了解 NVIDIA Jetson Orin

详细了解我们的数据中心训练和推理产品性能。

查看性能

MLPerf 基准测试

什么是 MLPerf？