MLPerf™ 基准测试由来自学术界、研究实验室和行业的 AI 领导者联盟 MLCommons 开发,旨在对硬件、软件和服务的训练和推理性能进行无偏评估。它们都在规定的条件下进行。为了保持在行业趋势的前沿,MLPerf 不断发展,定期举行新的测试,并添加代表 AI 技术水平的新工作负载。
MLPerf Inference v4.1 可测量九种不同基准测试的推理性能,包括数个大语言模型 (LLM)、文本转图像、自然语言处理、推荐系统、计算机视觉和医疗图像分割。
MLPerf Training v4.1 可测量七种不同基准测试的训练时间,包括 LLM 预训练、LLM 微调、文本转图像、图形神经网络 (GNN)、计算机视觉、推荐和自然语言处理。
MLPerf HPC v3.0 可测量四种不同的科学计算用例的训练性能,包括气候大气河流识别、宇宙学参数预测、量子分子建模和蛋白质结构预测。
NVIDIA HGX™ Blackwell 架构平台由 NVIDIA Blackwell GPU、第五代 NVLink™ 和最新 NVLink Switch 提供支持,为 MLPerf Training v4.1 中的 LLM 训练带来了又一次巨大飞跃。通过坚持不懈的数据中心规模全栈工程,NVIDIA 将继续突破生成式 AI 训练性能极限,加速创建和定制日益强大的 AI 模型。
NVIDIA Blackwell 强效助力 LLM 训练
MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 http://www.mlcommons.org,来自以下条目:可用类别下 4.1-0060(HGX H100,2024,512 个 GPU)以及预览类别下 4.1-0082(HGX B200,2024,64 个 GPU)。MLPerfTM Training v3.0 结果用于 HGX H100(2023,512 个 GPU),检索自条目 3.0-2069。HGX A100 结果(使用 512 个 GPU)未经 MLCommons Association 验证。每个 GPU 的标准化性能并非 MLPerf™ Training 的主要指标。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 http://www.mlcommons.org。
采用 NVIDIA Hopper™ GPU、第四代 NVLink 和第三代 NVSwitch™ 以及 Quantum-2 InfiniBand 的 NVIDIA 平台在 MLPerf Training v4.1 中继续表现出卓越性能和多功能性。NVIDIA 在所有七项基准测试中均保持了规模级的记录。
基准测试 | 训练时间 | GPUs 数量 |
---|---|---|
LLM (GPT-3 175B) | 3.4 分 | 11,616 |
LLM 微调 (Llama 2 70B-LoRA) | 1.2 分 | 1,024 |
文本转图像 (Stable Diffusion v2) | 1.4 分 | 1,024 |
图形神经网络 (R-GAT) | 0.9 分 | 512 |
推荐系统 (DLRM-DCNv2) | 1.0 分 | 128 |
自然语言处理 (BERT) | 0.1 分 | 3,472 |
物体检测 (RetinaNet) | 0.8 分 | 2,528 |
MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 https://www.mlcommons.org,来自以下条目:4.1-0012、4.1-0054、4.1-0053、4.1-0059、4.1-0055、4.10058、4.1-0056。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 https://www.mlcommons.org。
AI 的复杂性要求平台的各个方面紧密集成。正如 MLPerf 基准测试所示,NVIDIA AI 平台凭借世界上最先进的 GPU、强大且可扩展的互连技术和尖端软件,提供了领先的性能——这是一个端到端的解决方案,可以在数据中心、云端或边缘部署,并取得出色的效果。
要在训练和推理方面获得领先的结果,需要专为应对复杂的 AI 挑战而构建的基础设施。NVIDIA AI 平台在 NVIDIA Blackwell 平台、Hopper 平台、NVLink™, NVSwitch™和 Quantum InfiniBand 的支持下提供了领先的性能。这些都是 NVIDIA 数据中心平台的核心,也是我们基准测试性能背后的引擎。
此外,NVIDIA DGX™ 系统可提供可扩展性、快速部署和惊人的计算能力,使每个企业都能构建领先的 AI 基础设施。
NVIDIA Jetson Orin 提供无与伦比的 AI 计算能力、大容量统一内存和全面的软件堆栈,可提供卓越的能效以推动最新的生成式 AI 应用。它能够快速推理任何由 Transformer 架构驱动的生成式 AI 模型,在 MLPerf 上提供卓越的边缘性能。
详细了解我们的数据中心训练和推理产品性能。