Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
NVIDIA AI 平台在 MLPerf 训练和推理方面表现出色,并在处理要求极为严苛的现实 AI 工作负载方面展示出先进的性能和通用性。
MLPerf™ 基准测试由来自学术界、研究实验室和行业的 AI 领导者联盟 MLCommons 开发,旨在对硬件、软件和服务的训练和推理性能进行无偏评估。它们都在规定的条件下进行。为了保持在行业趋势的前沿,MLPerf 不断发展,定期举行新的测试,并添加代表 AI 技术水平的新工作负载。
查尔姆斯理工大学是瑞典领先的科研机构之一,专门从事纳米技术、气候研究等多个领域的研究工作。随着我们引入 AI 来推进研究工作,我们发现 MLPerf 基准测试提供了跨多个 AI 平台的透明同类比较,以展示在各种真实用例中的实际性能。
— 瑞典查尔姆斯理工大学
台积电正在推动全球半导体制造领域前沿技术的发展,比如我们最新的 5 纳米节点在工艺技术方面引领市场发展。基于机器学习的光刻和蚀刻建模等创新技术能够显著提高我们的光学邻近效应修正 (OPC) 和蚀刻模拟的准确性。为充分发挥机器学习在模型训练和推理中的潜力,我们正与 NVIDIA 工程团队开展合作,将我们的 Maxwell 模拟和反演光刻技术 (ILT) 引擎移植到 GPU,从而实现显著加速。MLPerf 基准测试是我们决策制定中的一个重要因素。
— 美国加利福尼亚州圣何塞市台积电 OPC 部门总监 Danping Peng 博士
计算机视觉和成像是 AI 研究的核心,能够推动科学发现并随时展示医疗保健的核心组件。我们与 NVIDIA 密切合作,将 3DUNet 等创新引入医疗健康市场。符合行业标准的 MLPerf 基准测试可为 IT 组织和开发者提供相关性能数据,以获得适当的解决方案来加速其特定项目和应用。
— Klaus Maier-Hein 德国癌症研究中心 (DKFZ 医疗图像计算部门主管)
作为研发和制造领域的领军企业,三星使用 AI 来显著提升产品性能和制造生产力。实现这些 AI 进展要求我们拥有上佳计算平台。MLPerf 基准测试可为我们提供开放、直接的评估方法,统一评估各平台,从而简化我们的选择流程。
— 三星电子
MLPerf Inference v4.1 可测量九种不同基准测试的推理性能,包括数个大语言模型 (LLM)、文本转图像、自然语言处理、推荐系统、计算机视觉和医疗图像分割。
MLPerf Training v4.1 可测量七种不同基准测试的训练时间,包括 LLM 预训练、LLM 微调、文本转图像、图形神经网络 (GNN)、计算机视觉、推荐和自然语言处理。
MLPerf HPC v3.0 可测量四种不同的科学计算用例的训练性能,包括气候大气河流识别、宇宙学参数预测、量子分子建模和蛋白质结构预测。
已基于大型数据集进行训练的深度学习算法,可以为多种用例识别、总结、翻译、预测和生成内容。 详细信息。
根据文本提示生成图像。 详细信息。
通过了解用户与服务项目(如产品或广告)之间的互动,在社交媒体或电子商务网站等面向用户的服务中提供个性化结果。 详细信息。
在图像或视频中查找真实目标的实例(如人脸、自行车和建筑物等),并为每个目标指定边界框。 详细信息。
使用旨在处理以图形表示的数据的神经网络。 详细信息。
MLPerf Inference 将 ResNet v1.5 与 ImageNet 数据集结合起来使用。 详细信息。
根据一段文本中不同字词之间的关系来理解文本。可用于回答问题、解释句子和许多与语言相关的其他用例。 详细信息。
为医疗用例执行密集型 3D 图像的立体分割。 详细信息。
识别气候仿真数据中的飓风和气候大气河流。 详细信息。
解决宇宙学数据的 3D 图像回归问题。 详细信息。
预测能量或分子构型。 详细信息。
根据一维氨基酸连接预测三维蛋白质结构。 详细信息。
NVIDIA HGX™ Blackwell 架构平台由 NVIDIA Blackwell GPU、第五代 NVLink™ 和最新 NVLink Switch 提供支持,为 MLPerf Training v4.1 中的 LLM 训练带来了又一次巨大飞跃。通过坚持不懈的数据中心规模全栈工程,NVIDIA 将继续突破生成式 AI 训练性能极限,加速创建和定制日益强大的 AI 模型。
NVIDIA Blackwell 强效助力 LLM 训练
MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 http://www.mlcommons.org,来自以下条目:可用类别下 4.1-0060(HGX H100,2024,512 个 GPU)以及预览类别下 4.1-0082(HGX B200,2024,64 个 GPU)。MLPerfTM Training v3.0 结果用于 HGX H100(2023,512 个 GPU),检索自条目 3.0-2069。HGX A100 结果(使用 512 个 GPU)未经 MLCommons Association 验证。每个 GPU 的标准化性能并非 MLPerf™ Training 的主要指标。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 http://www.mlcommons.org。
采用 NVIDIA Hopper™ GPU、第四代 NVLink 和第三代 NVSwitch™ 以及 Quantum-2 InfiniBand 的 NVIDIA 平台在 MLPerf Training v4.1 中继续表现出卓越性能和多功能性。NVIDIA 在所有七项基准测试中均保持了规模级的记录。
MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 https://www.mlcommons.org,来自以下条目:4.1-0012、4.1-0054、4.1-0053、4.1-0059、4.1-0055、4.10058、4.1-0056。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 https://www.mlcommons.org。
在首次亮相的 MLPerf 推理测试中,NVIDIA Blackwell 平台采用了 NVIDIA Quasar 量化系统,与上一代 Tensor Core GPU 相比,LLM 性能提升达 4 倍。在现有解决方案中,基于 NVIDIA Hopper 体系架构的 NVIDIA Tensor Core GPU 在所有三项 LLM 基准测试(包括 Llama 2 70B、GPT-J 和新添加的混合专家 LLM Mixtral 8x7B)以及 Stable Diffusion XL 文本转图像基准测试中针对生成式 AI 提供了最高的每 GPU 性能。通过坚持不懈的软件优化,NVIDIA Tensor Core GPU 的性能在不到六个月内提高了 27%。对于边缘生成式 AI,NVIDIA Jetson Orin™ 提供了优异的结果,仅在一轮 GPT-J 测试中,就将吞吐量提高了 6 倍以上,并将延迟降低了 2.4 倍。
4X
10756 Token/秒 每 GPU
3.7X
11264 Token/秒 每 GPU
208B 晶体管
FP4/FP6 Tensor Core
扩展到 576 个 GPU
100% 系统内自检
全性能加密和 TEE
800 GB/秒
MLPerf Inference v4.1 已关闭、数据中心。结果于 2024 年 8 月 28 日检索自 https://mlcommons.org。Blackwell 结果在单个 GPU 上进行测量,并检索自条目 4.1-0074 的已关闭、预览类别。H100 结果检索自条目 4.1-0043,位于 8x H100 系统的已关闭、可用类别,并除以 GPU 数量以获得每个 GPU 的比较结果。每个 GPU 的吞吐量不是 MLPerf Inference 的主要指标。MLPerf 名称和徽标为 MLCommons Association 在美国和其他国家/地区的注册和未注册商标。保留所有权利。未经授权严禁使用。详情请参见 https://mlcommons.org。
MLPerf Inference v4.1 已关闭、数据中心。结果于 2024 年 8 月 28 日检索自 https://mlcommons.org。所有结果均使用 8 个 GPU,并检索自以下条目:4.1-0046、4.1-0048、4.1-0050。MLPerf 名称和徽标为 MLCommons Association 在美国和其他国家/地区的注册和未注册商标。保留所有权利。未经授权严禁使用。详情请参见 https://mlcommons.org。
首次在 MLPerf HPC v3.0 中亮相时,NVIDIA Tensor Core GPU 便为适用于 HPC 和 AI 的 NVIDIA 平台注入了强劲动力,使训练速度在短短三年内提高了 16 倍,并且对于所有工作负载,在训练时间和吞吐量指标方面均取得了出色表现。对于气候分段、宇宙学参数预测、量子分子建模,以及最新添加的蛋白质结构预测等各种 MLPerf HPC 工作负载,NVIDIA 平台都提交了结果。NVIDIA 平台的卓越性能和通用性使其成为助力下一波 AI 赋能科学发现浪潮的首选工具。
NVIDIA 全栈创新助推性能提升
MLPerf™ HPC v3.0 结果是在 2023 年 11 月 8 日从 https://mlcommons.org 上检索到的。结果是从以下条目检索到的:0.7-406、0.7-407、1.0-1115、1.0-1120、1.0-1122、2.0-8005、2.0-8006、3.0-8006、3.0-8007、3.0-8008。v1.0 中的 CosmoFlow 分数已标准化为 MLPerf HPC v2.0 中引入的新 RCP。 v0.7、v1.0 和 v2.0 的分数经过了调整,以从基准中删除数据暂存时间,这与 v3.0 采用的新规则一致,以便在提交轮次之间进行公平比较。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。严禁未经授权使用。详情请参见 https://mlcommons.org。
MLPerf™ HPC v3.0 结果是在 2023 年 11 月 8 日从 https://mlcommons.org 检索到的。结果是从以下条目检索到的:3.0-8004、3.0-8009 和 3.0-8010。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。严禁未经授权使用。详情请参见 https://mlcommons.org。
AI 的复杂性要求平台的各个方面紧密集成。正如 MLPerf 基准测试所示,NVIDIA AI 平台凭借世界上最先进的 GPU、强大且可扩展的互连技术和尖端软件,提供了领先的性能——这是一个端到端的解决方案,可以在数据中心、云端或边缘部署,并取得出色的效果。
NGC™ 目录是 NVIDIA 平台以及 MLPerf 训练和推理结果的重要组成部分,它是 GPU 优化的 AI、高性能计算 (HPC) 和数据分析软件的中心,可简化和加速端到端工作流。凭借 150 多个企业级容器(包括适用于生成式 AI、对话式 AI 和推荐系统的工作负载)、数百个 AI 模型,以及可在本地、云或在边缘部署的行业特定 SDK,NGC 助力数据科学家、研究人员和开发者以超乎寻常的速度构建强大的解决方案、收集见解,并以更快的速度提供业务价值。
要在训练和推理方面获得领先的结果,需要专为应对复杂的 AI 挑战而构建的基础设施。NVIDIA AI 平台在 NVIDIA Blackwell 平台、Hopper 平台、NVLink™, NVSwitch™和 Quantum InfiniBand 的支持下提供了领先的性能。这些都是 NVIDIA 数据中心平台的核心,也是我们基准测试性能背后的引擎。
此外,NVIDIA DGX™ 系统可提供可扩展性、快速部署和惊人的计算能力,使每个企业都能构建领先的 AI 基础设施。
NVIDIA Jetson Orin 提供无与伦比的 AI 计算能力、大容量统一内存和全面的软件堆栈,可提供卓越的能效以推动最新的生成式 AI 应用。它能够快速推理任何由 Transformer 架构驱动的生成式 AI 模型,在 MLPerf 上提供卓越的边缘性能。
详细了解我们的数据中心训练和推理产品性能。
MLPerf 训练在 C4 数据集上使用具有 1750 亿个参数和序列长度为 2048 的 GPT-3 生成式语言模型来处理 LLM 预训练工作负载。在 LLM 微调测试中,Llama 2 70B 模型使用的是 GovReport 数据集,序列长度为 8192。
MLPerf 推理将 Llama 2 70B 模型与 OpenORCA 数据集结合使用;将 Mixtral 8x7B 模型与 OpenORCA、GSM8K 和 MBXP 数据集结合使用;将 GPT-J 模型与 CNN-DailyMail 数据集结合使用。
MLPerf 训练使用基于 LAION-400M 筛选数据集训练的 Stable Diffusion v2 文本转图像模型。
MLPerf 推理使用 Stable Diffusion XL (SDXL) 文本转图像模型以及来自 coco-val-2014 数据集的 5000 个提示子集。
MLPerf Training 和 MLPerf Inference 使用深度学习推荐模型 v2 (DLRMv2),该模型采用从 Criteo 数据集合成的 DCNv2 跨层多热数据集。
MLPerf Training 使用带有 ResNeXt50 主干的单步检测器 (SSD) 和 Google OpenImages 数据集的子集。
MLPerf Training 将 R-GAT 模型与异构数据集伊利诺伊图基准 (IGB) 结合起来使用。
MLPerf Training 和 MLPerf Inference 使用 ResNet v1.5 和 ImageNet 数据集。
MLPerf 训练在 Wikipedia 2020/01/01 数据集上使用 Bidirectional Encoder Representations from Transformers (BERT)。
MLPerf Inference 将 BERT 与 SQuAD v.1.1 数据集结合起来使用。
MLPerf Inference 将 3D U-Net 与 KiTS19 数据集结合起来使用。
使用 DeepCAM 模型和 CAM5 + TECA 仿真数据集。
使用 CosmoFlow 模型和 CosmoFlow N-body 仿真数据集。
使用 DimeNet++ 模型和 Open Catalyst 2020 (OC20) 数据集。
使用已基于 OpenProteinSet 数据集进行训练的 OpenFold 模型。