MLPerf 基准测试

NVIDIA AI 平台在 MLPerf 训练和推理方面表现出色,并在处理要求极为严苛的现实 AI 工作负载方面展示出先进的性能和通用性。

什么是 MLPerf?

MLPerf™ 基准测试由来自学术界、研究实验室和行业的 AI 领导者联盟 MLCommons 开发,旨在对硬件、软件和服务的训练和推理性能进行无偏评估。它们都在规定的条件下进行。为了保持在行业趋势的前沿,MLPerf 不断发展,定期举行新的测试,并添加代表 AI 技术水平的新工作负载。

查尔姆斯理工大学是瑞典领先的科研机构之一,专门从事纳米技术、气候研究等多个领域的研究工作。随着我们引入 AI 来推进研究工作,我们发现 MLPerf 基准测试提供了跨多个 AI 平台的透明同类比较,以展示在各种真实用例中的实际性能。

— 瑞典查尔姆斯理工大学

台积电正在推动全球半导体制造领域前沿技术的发展,比如我们最新的 5 纳米节点在工艺技术方面引领市场发展。基于机器学习的光刻和蚀刻建模等创新技术能够显著提高我们的光学邻近效应修正 (OPC) 和蚀刻模拟的准确性。为充分发挥机器学习在模型训练和推理中的潜力,我们正与 NVIDIA 工程团队开展合作,将我们的 Maxwell 模拟和反演光刻技术 (ILT) 引擎移植到 GPU,从而实现显著加速。MLPerf 基准测试是我们决策制定中的一个重要因素。

— 美国加利福尼亚州圣何塞市台积电 OPC 部门总监 Danping Peng 博士

计算机视觉和成像是 AI 研究的核心,能够推动科学发现并随时展示医疗保健的核心组件。我们与 NVIDIA 密切合作,将 3DUNet 等创新引入医疗健康市场。符合行业标准的 MLPerf 基准测试可为 IT 组织和开发者提供相关性能数据,以获得适当的解决方案来加速其特定项目和应用。

— Klaus Maier-Hein(德国癌症研究中心 (DKFZ) 医疗图像计算部门主管)

作为研发和制造领域的领军企业,三星使用 AI 来显著提升产品性能和制造生产力。实现这些 AI 进展要求我们拥有上佳计算平台。MLPerf 基准测试可为我们提供开放、直接的评估方法,统一评估各平台,从而简化我们的选择流程。

— 三星电子

深入了解 MLPerf 基准测试

MLPerf Training v3.1 用于测量在九个不同用例中训练模型的时间,包括大型语言模型 (LLM)、图像生成、计算机视觉、医学影像分割、语音识别和推荐。

MLPerf Inference v3.1 使用 7 种不同的神经网络(包括 LLM、自然语言处理、计算机视觉和医学影像分割)来测量推理性能。

MLPerf HPC v3.0 可测量四个不同科学计算用例的训练性能,包括气候大气河流识别、宇宙学参数预测、量子分子建模和蛋白质结构预测。

大语言模型

大语言模型

已基于大型数据集进行训练的深度学习算法,可以为多种用例识别、总结、翻译、预测和生成内容。 详细信息

文本转图像

文本转图像

根据文本提示生成图像。详细信息

推荐

推荐

通过了解用户与服务项目(如产品或广告)之间的互动,在社交媒体或电子商务网站等面向用户的服务中提供个性化结果。详细信息

目标检测(轻量级)

目标检测(轻量级)

在图像或视频中查找真实目标的实例(如人脸、自行车和建筑物等),并为每个目标指定边界框。详细信息

目标检测(重量级)

目标检测(重量级)

检测图像中显示的不同目标物体,并为每个目标分别标识像素掩码。详细信息

图像分类

图像分类

将固定类别集中的标签分配给输入的图像,即应用于计算机视觉问题。详细信息

自然语言处理 (NLP)

自然语言处理 (NLP)

根据一段文本中不同字词之间的关系来理解文本。可用于回答问题、解释句子和许多与语言相关的其他用例。详细信息

自动语音识别 (ASR)

自动语音识别 (ASR)

实时识别和转写音频。详细信息

生物医疗影像分割

生物医疗影像分割

为医疗用例执行密集型 3D 图像的立体分割。详细信息

气候大气河流识别

气候大气河流识别

识别气候仿真数据中的飓风和气候大气河流。详细信息

宇宙学参数预测

宇宙学参数预测

解决宇宙学数据的 3D 图像回归问题。详细信息

量子分子建模

量子分子建模

预测能量或分子构型。详细信息

蛋白质结构预测

蛋白质结构预测

根据一维氨基酸连接预测三维蛋白质结构。详细信息

NVIDIA MLPerf 基准测试结果

  • 培训

    培训

  • 推理

    推理

  • HPC

    HPC

NVIDIA 加速计算平台由 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络提供强劲支持,打破了 MLPerf Training v3.1 中的大型 LLM 训练性能纪录,并且在 10,752 个 H100 GPU 的超大规模下进行 GPT-3 175B 基准测试时,该平台能够助力实现两次提交,以及近乎线性的扩展效率。此外,在新增的基于 Stable Diffusion v2 的文本转图像测试中,NVIDIA 平台树立了新的标杆,实现了超高的性能,并展现出非凡的可扩展性。通过在数据中心规模下坚持不懈地开展全栈工程工作,NVIDIA 在不断地快速提升 AI 训练性能。

凭借超高的 MLPerf 提交量,NVIDIA 创下大语言模型训练的新纪录

NVIDIA Sets a New Large Language Model Training Record With Largest MLPerf Submission Ever
Benchmark Per-Accelerator Records
(NVIDIA H100 Tensor Core GPU)
Large Language Model (GPT-3 175B) 548 hours (23 days)
Natural Language Processing (BERT) 0.71 hours
Recommendation (DLRM-DCNv2) 0.56 hours
Speech Recognition (RNN-T) 2.2 hours
Image Classification (ResNet-50 v1.5) 1.8 hours
Object Detection, Heavyweight (Mask R-CNN) 2.6 hours
Object Detection, Lightweight (RetinaNet) 4.9 hours
Image Segmentation (3D U-Net) 1.6 hours

NVIDIA AI 平台在每次 MLPerf Training 测试中均实现了卓越的性能

除了在先进的大语言模型和文本转图像测试中实现了大幅的性能突破之外,NVIDIA 在 MLPerf Training v3.1 中的推荐系统、目标检测、医疗影像分割和自然语言处理工作负载方面也创下了新的性能纪录。借助 NVIDIA H100 GPU 和 NVIDIA Quantum-2,NVIDIA 平台继续在每种基准测试中实现超快的训练速度,在处理各种 AI 工作负载时展现出非凡的性能、可扩展性和通用性。  

Max-Scale Performance

Benchmark Time to Train
GPT-3 3.92 minutes
Stable Diffusion v2 2.47 minutes
DLRM-DCNv2 1.0 minutes
BERT-large 0.12 minutes
ResNet-50 v1.5 0.18 minutes
Mask R-CNN 1.5 minutes
RetinaNet 0.92 minutes
3D U-Net 0.77 minutes
RNN-T 1.7 minutes

NVIDIA H100 Tensor Core GPU 为每个 MLPerf 推理 v3.1 数据中心工作负载和场景的高吞吐量系统提供支持。这是 NVIDIA GH200 Grace Hopper™ 超级芯片首次应用于 MLPerf,该芯片可运行所有工作负载,并扩展了 H100 的卓越性能。NVIDIA L4 Tensor Core GPU 经过优化,是适用于主流服务器的高效 NVIDIA 加速器,也已取得全面的优异成绩。针对高效边缘 AI 和机器人应用,NVIDIA Jetson AGX Orin™ 和 Jetson Orin NX 继续展现出优秀的系统模组推理能力。

数据中心和边缘的离线场景(单 GPU)

NVIDIA GH200 Grace Hopper 超级芯片(推理数/秒) NVIDIA H100(推理数/秒) NVIDIA L4 (I推理数/秒) NVIDIA Jetson AGX Orin (最大推理数/查询) NVIDIA Jetson Orin NX (最大推理数/查询)
GPT-J (大型语言模型) 13.34 13.29 1.30 不适用 不适用
DLRMv2 (推荐系统) 49,002 42,856 3,673 不适用* 不适用*
BERT (自然语言处理)** 8,646 7,878 631 554 195
ResNet-50 v1.5 (图像分类) 93,198 88,526 12,882 6,424 2,641
RetinaNet (物体检测) 1,849 1,761 226 149 67
RNN-T (语音识别) 25,975 23,307 3,899 1,170 432
3D U-Net (医学影像) 6.8 6.5 1.07 0.51 0.20

首次在 MLPerf HPC v3.0 中亮相时,NVIDIA H100 Tensor Core 便为适用于 HPC 和 AI 的 NVIDIA 平台注入了强劲动力,使训练速度在短短三年内提高了 16 倍,并且对于所有工作负载,在训练时间和吞吐量指标方面均取得了出色表现。对于气候分段、宇宙学参数预测、量子分子建模,以及最新添加的蛋白质结构预测等各种 MLPerf HPC 工作负载,NVIDIA 平台都提交了结果。NVIDIA 平台的卓越性能和通用性使其成为助力下一波 AI 赋能科学发现浪潮的首选工具。 

性能在 3 年内提升至原来的 16 倍

NVIDIA 全栈创新助推性能提升

Up to 16X More Performance in 3 Years
Up to 16X More Performance in 3 Years

助力实现出色结果的技术

TAI 的复杂性要求平台的各个方面实现紧密结合。正如 MLPerf 基准测试中所展现的,凭借先进的 GPU、强大且可扩展的互连技术以及尖端软件(一种端到端解决方案,可在数据中心、云或边缘部署,并可提供出色结果),NVIDIA AI 平台可提供出色的性能。

Pre-trained models and Optimized Software from NVIDIA NGC

经过优化的软件,加速 AI 工作流

NGC™ 目录是 NVIDIA 平台以及 MLPerf 训练和推理结果的重要组成部分,它是 GPU 优化的 AI、高性能计算 (HPC) 和数据分析软件的中心,可简化和加速端到端工作流。凭借 150 多个企业级容器(包括适用于对话式 AI 和推荐系统的工作负载)、数百个 AI 模型,以及可在本地、云或在边缘部署的行业特定 SDK,NGC 助力数据科学家、研究人员和开发者以超乎寻常的速度构建强大的解决方案、收集见解,并以更快的速度提供业务价值。

领先的 AI 基础架构

要在训练和推理方面获得领先的结果,需要专为应对复杂的 AI 挑战而构建的基础设施。NVIDIA AI 平台提供领先的性能,由 NVIDIA GH200 Grace Hopper 超级芯片、NVIDIA H100 Tensor Core GPU、NVIDIA L4 Tensor Core GPU 以及 NVIDIA 互联技术的可扩展性和灵活性提供支持NVIDIA NVLink™、NVSwitch™以及量子―2InfiniBand这些都是 NVIDIA 数据中心平台的核心,也是我们基准测试性能背后的引擎。

I此外,NVIDIA DGX™ 系统提供可扩展性、快速部署和惊人的计算能力,使每个企业都能构建领先的 AI 基础设施。 

Leadership-Class AI Infrastructure

详细了解我们的数据中心训练和推理产品性能。