MLPerf 基准测试

NVIDIA AI 平台在 MLPerf 训练和推理方面表现出色,并在处理要求极为严苛的现实 AI 工作负载方面展示出先进的性能和通用性。

什么是 MLPerf?

MLPerf™ 基准测试由来自学术界、研究实验室和行业的 AI 领导者联盟 MLCommons 开发,旨在对硬件、软件和服务的训练和推理性能进行无偏评估。它们都在规定的条件下进行。为了保持在行业趋势的前沿,MLPerf 不断发展,定期举行新的测试,并添加代表 AI 技术水平的新工作负载。

深入了解 MLPerf 基准测试

MLPerf Inference v4.1 可测量九种不同基准测试的推理性能,包括数个大语言模型 (LLM)、文本转图像、自然语言处理、推荐系统、计算机视觉和医疗图像分割。

MLPerf Training v4.1 可测量七种不同基准测试的训练时间,包括 LLM 预训练、LLM 微调、文本转图像、图形神经网络 (GNN)、计算机视觉、推荐和自然语言处理。

MLPerf HPC v3.0 可测量四种不同的科学计算用例的训练性能,包括气候大气河流识别、宇宙学参数预测、量子分子建模和蛋白质结构预测。

大语言模型

已基于大型数据集进行训练的深度学习算法,可以为多种用例识别、总结、翻译、预测和生成内容。
详细信息

文本转图像

根据文本提示生成图像。
详细信息

推荐系统

通过了解用户与服务项目(如产品或广告)之间的互动,在社交媒体或电子商务网站等面向用户的服务中提供个性化结果。
详细信息

目标检测 (轻量级)

在图像或视频中查找真实目标的实例(如人脸、自行车和建筑物等),并为每个目标指定边界框。
详细信息

图形神经网络

使用旨在处理以图形表示的数据的神经网络。
详细信息

图像分类

MLPerf Inference 将 ResNet v1.5 与 ImageNet 数据集结合起来使用。
详细信息

自然语言处理 (NLP)

根据一段文本中不同字词之间的关系来理解文本。可用于回答问题、解释句子和许多与语言相关的其他用例。
详细信息

生物医学图像分割

为医疗用例执行密集型 3D 图像的立体分割。
详细信息

气候大气河流识别

识别气候仿真数据中的飓风和气候大气河流。
详细信息

宇宙学参数预测

解决宇宙学数据的 3D 图像回归问题。
详细信息

量子分子建模

预测能量或分子构型。
详细信息

蛋白质结构预测

根据一维氨基酸连接预测三维蛋白质结构。
详细信息

NVIDIA MLPerf 基准测试结果

NVIDIA HGX™ Blackwell 架构平台由 NVIDIA Blackwell GPU、第五代 NVLink™ 和最新 NVLink Switch 提供支持,为 MLPerf Training v4.1 中的 LLM 训练带来了又一次巨大飞跃。通过坚持不懈的数据中心规模全栈工程,NVIDIA 将继续突破生成式 AI 训练性能极限,加速创建和定制日益强大的 AI 模型。

NVIDIA Blackwell 强效助力 LLM 训练

MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 http://www.mlcommons.org,来自以下条目:可用类别下 4.1-0060(HGX H100,2024,512 个 GPU)以及预览类别下 4.1-0082(HGX B200,2024,64 个 GPU)。MLPerfTM Training v3.0 结果用于 HGX H100(2023,512 个 GPU),检索自条目 3.0-2069。HGX A100 结果(使用 512 个 GPU)未经 MLCommons Association 验证。每个 GPU 的标准化性能并非 MLPerf™ Training 的主要指标。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 http://www.mlcommons.org

NVIDIA 保持规模级最佳性能

采用 NVIDIA Hopper™ GPU、第四代 NVLink 和第三代 NVSwitch™ 以及 Quantum-2 InfiniBand 的 NVIDIA 平台在 MLPerf Training v4.1 中继续表现出卓越性能和多功能性。NVIDIA 在所有七项基准测试中均保持了规模级的记录。

超大规模性能

基准测试 训练时间 GPUs 数量
LLM (GPT-3 175B) 3.4 分 11,616
LLM 微调 (Llama 2 70B-LoRA) 1.2 分 1,024
文本转图像 (Stable Diffusion v2) 1.4 分 1,024
图形神经网络 (R-GAT) 0.9 分 512
推荐系统 (DLRM-DCNv2) 1.0 分 128
自然语言处理 (BERT) 0.1 分 3,472
物体检测 (RetinaNet) 0.8 分 2,528

MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 https://www.mlcommons.org,来自以下条目:4.1-0012、4.1-0054、4.1-0053、4.1-0059、4.1-0055、4.10058、4.1-0056。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 https://www.mlcommons.org

在首次亮相的 MLPerf 推理测试中,NVIDIA Blackwell 平台采用了 NVIDIA Quasar 量化系统,与上一代 Tensor Core GPU 相比,LLM 性能提升达 4 倍。在现有解决方案中,基于 NVIDIA Hopper 体系架构NVIDIA Tensor Core GPU 在所有三项 LLM 基准测试(包括 Llama 2 70B、GPT-J 和新添加的混合专家 LLM Mixtral 8x7B)以及 Stable Diffusion XL 文本转图像基准测试中针对生成式 AI 提供了最高的每 GPU 性能。通过坚持不懈的软件优化,NVIDIA Tensor Core GPU 的性能在不到六个月内提高了 27%。对于边缘生成式 AI,NVIDIA Jetson Orin™ 提供了优异的结果,仅在一轮 GPT-J 测试中,就将吞吐量提高了 6 倍以上,并将延迟降低了 2.4 倍。

NVIDIA Blackwell 实现 LLM 推理性能的巨大飞跃

服务器

4X

 

离线

3.7X

 

AI 超级芯片

208B 晶体管

第二代 Transformer 引擎

FP4/FP6 Tensor Core

第五代 NVLINK

扩展到 576 个 GPU

RAS 引擎

100% 系统内自检

安全 AI

全性能加密和 TEE

解压缩引擎

800 GB/秒

MLPerf Inference v4.1 已关闭、数据中心。结果于 2024 年 8 月 28 日检索自 https://mlcommons.org。Blackwell 结果在单个 GPU 上进行测量,并检索自条目 4.1-0074 的已关闭、预览类别。H100 结果检索自条目 4.1-0043,位于 8x H100 系统的已关闭、可用类别,并除以 GPU 数量以获得每个 GPU 的比较结果。每个 GPU 的吞吐量不是 MLPerf Inference 的主要指标。MLPerf 名称和徽标为 MLCommons Association 在美国和其他国家/地区的注册和未注册商标。保留所有权利。未经授权严禁使用。详情请参见 https://mlcommons.org

NVIDIA Tensor Core GPU 在每项基准测试中实现了出色的多 GPU 推理吞吐量

基准测试 离线 服务器
Llama 2 70B 34864 token/秒 32790 tokens/秒
Mixtral 8x7B 59022 token/秒 57177 tokens/秒
GPT-J 20086 token/秒 19243 token/秒
Stable Diffusion XL 17.42 样本/秒 16.78 查询/秒
DLRMv2 99% 637342 样本/秒 585,02 查询/秒
DLRMv2 99.9% 390953 样本/秒 370083 查询/秒
BERT 99% 73310 样本/秒 57609 查询/秒
BERT 99.9% 63950 样本/秒 51212 查询/秒
RetinaNet 14439 样本/秒 13604 查询/秒
ResNet-50 v1.5 756960 样本/秒 632229 查询/秒
3D U-Net 54.71 样本/秒 非基准测试的一部分

MLPerf Inference v4.1 已关闭、数据中心。结果于 2024 年 8 月 28 日检索自 https://mlcommons.org。所有结果均使用 8 个 GPU,并检索自以下条目:4.1-0046、4.1-0048、4.1-0050。MLPerf 名称和徽标为 MLCommons Association 在美国和其他国家/地区的注册和未注册商标。保留所有权利。未经授权严禁使用。详情请参见 https://mlcommons.org

首次在 MLPerf HPC v3.0 中亮相时,NVIDIA Tensor Core GPU 便为适用于 HPC 和 AI 的 NVIDIA 平台注入了强劲动力,使训练速度在短短三年内提高了 16 倍,并且对于所有工作负载,在训练时间和吞吐量指标方面均取得了出色表现。对于气候分段、宇宙学参数预测、量子分子建模,以及最新添加的蛋白质结构预测等各种 MLPerf HPC 工作负载,NVIDIA 平台都提交了结果。NVIDIA 平台的卓越性能和通用性使其成为助力下一波 AI 赋能科学发现浪潮的首选工具。 

性能在 3 年内提升至原来的 16 倍

NVIDIA 全栈创新助推性能提升

MLPerf™ HPC v3.0 结果是在 2023 年 11 月 8 日从 https://mlcommons.org 上检索到的。结果是从以下条目检索到的:0.7-406、0.7-407、1.0-1115、1.0-1120、1.0-1122、2.0-8005、2.0-8006、3.0-8006、3.0-8007、3.0-8008。v1.0 中的 CosmoFlow 分数已标准化为 MLPerf HPC v2.0 中引入的新 RCP。 v0.7、v1.0 和 v2.0 的分数经过了调整,以从基准中删除数据暂存时间,这与 v3.0 采用的新规则一致,以便在提交轮次之间进行公平比较。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。严禁未经授权使用。详情请参见 https://mlcommons.org

MLPerf™ HPC v3.0 结果是在 2023 年 11 月 8 日从 https://mlcommons.org 检索到的。结果是从以下条目检索到的:3.0-8004、3.0-8009 和 3.0-8010。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。严禁未经授权使用。详情请参见 https://mlcommons.org

助力实现出色结果的技术

AI 的复杂性要求平台的各个方面紧密集成。正如 MLPerf 基准测试所示,NVIDIA AI 平台凭借世界上最先进的 GPU、强大且可扩展的互连技术和尖端软件,提供了领先的性能——这是一个端到端的解决方案,可以在数据中心、云端或边缘部署,并取得出色的效果。

经过优化的软件,加速 AI 工作流

NGC™ 目录是 NVIDIA 平台以及 MLPerf 训练和推理结果的重要组成部分,它是 GPU 优化的 AI、高性能计算 (HPC) 和数据分析软件的中心,可简化和加速端到端工作流。凭借 150 多个企业级容器(包括适用于生成式 AI对话式 AI推荐系统的工作负载)、数百个 AI 模型,以及可在本地、云或在边缘部署的行业特定 SDK,NGC 助力数据科学家、研究人员和开发者以超乎寻常的速度构建强大的解决方案、收集见解,并以更快的速度提供业务价值。

领先的 AI 基础架构

要在训练和推理方面获得领先的结果,需要专为应对复杂的 AI 挑战而构建的基础设施。NVIDIA AI 平台在 NVIDIA Blackwell 平台Hopper 平台NVLink™, NVSwitch™Quantum InfiniBand 的支持下提供了领先的性能。这些都是 NVIDIA 数据中心平台的核心,也是我们基准测试性能背后的引擎。

此外,NVIDIA DGX™ 系统可提供可扩展性、快速部署和惊人的计算能力,使每个企业都能构建领先的 AI 基础设施。

借助变革性性能解锁边缘生成式 AI

NVIDIA Jetson Orin 提供无与伦比的 AI 计算能力、大容量统一内存和全面的软件堆栈,可提供卓越的能效以推动最新的生成式 AI 应用。它能够快速推理任何由 Transformer 架构驱动的生成式 AI 模型,在 MLPerf 上提供卓越的边缘性能。

详细了解我们的数据中心训练和推理产品性能。

大语言模型

MLPerf 训练在 C4 数据集上使用具有 1750 亿个参数和序列长度为 2048 的 GPT-3 生成式语言模型来处理 LLM 预训练工作负载。在 LLM 微调测试中,Llama 2 70B 模型使用的是 GovReport 数据集,序列长度为 8192。

MLPerf 推理将 Llama 2 70B 模型与 OpenORCA 数据集结合使用;将 Mixtral 8x7B 模型与 OpenORCA、GSM8K 和 MBXP 数据集结合使用;将 GPT-J 模型与 CNN-DailyMail 数据集结合使用。

文本转图像

MLPerf 训练使用基于 LAION-400M 筛选数据集训练的 Stable Diffusion v2 文本转图像模型。

MLPerf 推理使用 Stable Diffusion XL (SDXL) 文本转图像模型以及来自 coco-val-2014 数据集的 5000 个提示子集。

推荐系统

MLPerf Training 和 MLPerf Inference 使用深度学习推荐模型 v2 (DLRMv2),该模型采用从 Criteo 数据集合成的 DCNv2 跨层多热数据集。

目标检测(轻量级)

MLPerf Training 使用带有 ResNeXt50 主干的单步检测器 (SSD) 和 Google OpenImages 数据集的子集。

图形神经网络

MLPerf Training 将 R-GAT 模型与异构数据集伊利诺伊图基准 (IGB) 结合起来使用。

图像分类

MLPerf Training 和 MLPerf Inference 使用 ResNet v1.5 和 ImageNet 数据集。

自然语言处理 (NLP)

MLPerf 训练在 Wikipedia 2020/01/01 数据集上使用 Bidirectional Encoder Representations from Transformers (BERT)。

MLPerf Inference 将 BERT 与 SQuAD v.1.1 数据集结合起来使用。

生物医学图像分割

MLPerf Inference 将 3D U-Net 与 KiTS19 数据集结合起来使用。

气候大气河流识别

使用 DeepCAM 模型和 CAM5 + TECA 仿真数据集。

宇宙学参数预测

使用 CosmoFlow 模型和 CosmoFlow N-body 仿真数据集。

量子分子建模

使用 DimeNet++ 模型和 Open Catalyst 2020 (OC20) 数据集。

蛋白质结构预测

使用已基于 OpenProteinSet 数据集进行训练的 OpenFold 模型。