NVIDIA Ampere 架构是完整的 NVIDIA 企业数据中心解决方案的一部分,它囊括了硬件、网络、软件和库的构建模块,以及 NVIDIA NGC™ 目录中经优化的 AI 模型和应用程序。它为数据中心提供了强大的端到端 AI 和 HPC 平台,让研究人员能够快速交付真实的结果,并且大规模地将解决方案部署到生产环境中。
借助 NVIDIA A30 Tensor Core GPU 为各种企业工作负载带来加速性能。借助 NVIDIA Ampere 架构 Tensor Core 和多实例 GPU (MIG),它可以安全加速各种工作负载,其中包括大规模 AI 推理和高性能计算 (HPC) 应用程序。具有 PCIe 外形规格(非常适合主流服务器)的 A30 集快速显存带宽与低功耗于一体,不仅能实现弹性数据中心,还能为企业带来更大价值。
NVIDIA Ampere 架构是完整的 NVIDIA 企业数据中心解决方案的一部分,它囊括了硬件、网络、软件和库的构建模块,以及 NVIDIA NGC™ 目录中经优化的 AI 模型和应用程序。它为数据中心提供了强大的端到端 AI 和 HPC 平台,让研究人员能够快速交付真实的结果,并且大规模地将解决方案部署到生产环境中。
BERT Large 微调收敛训练
序列长度 = 384,数据集 = real,NGC™ 容器 = 20.12,BS=10
8 个 GPU:T4(混合精度)| V100 PCIE 16 GB(混合精度)| A30 (TF32) | A100 PCIE 40 GB (TF32)
为应对对话式 AI 等新型挑战而训练 AI 模型需要强大的计算能力与可扩展性。
NVIDIA A30 Tensor Core 具备 Tensor Float (TF32) 精度,可提供比 NVIDIA T4 高 10 倍之多的性能,并且无需更改代码;若使用自动混合精度和 FP16,性能可进一步提升 2 倍,综合起来可将吞吐量提高 20 倍。与 NVIDIA® NVLink®、PCIe Gen4、NVIDIA Mellanox® 网络和 NVIDIA Magnum IO™ SDK 配合使用时,可以扩展到数千个 GPU。
Tensor Core 和 MIG 使 A30 全天都能够动态地用于工作负载。它可以在需求高峰时段用于生产推理,并且部分 GPU 可以在非高峰时段改用于快速重新训练同一批模型。
NVIDIA 在行业级 AI 训练基准测试 MLPerf 中取得多项性能佳绩。
A30 引入了突破性的功能来优化推理工作负载。它能在从 FP64 到 TF32 和 INT4 的整个精度范围内进行加速。A30 每个 GPU 支持多达 4 个 MIG,允许多个网络在安全的硬件分区中同时运行,同时保证服务质量 (QoS)。在 A30 其他推理性能增益的基础之上,仅结构化稀疏支持一项就能带来高达两倍的性能提升。
NVIDIA 产品的出色 AI 性能在 MLPerf 推理测试中得到验证。通过与可以轻松地大规模部署 AI 的 NVIDIA Triton™ 推理服务器配合使用,A30 能为不同企业带来此突破性性能。
BERT Large 推理(标准化)
延迟小于 10 ms 的吞吐量
NVIDIA® TensorRT®,精度 = INT8,序列长度 = 384,NGC 容器 20.12,延迟小于 10 ms,数据集 = synthetic 1 个 GPU:A100 PCIE 40 GB (BS=8) | A30 (BS=4) | V100 SXM2 16 GB | T4 (BS=1)
RN50 v1.5 推断(标准化)
延迟小于 7ms 的吞吐量
TensorRT, NGC Container 20.12, Latency <7ms, Dataset=Synthetic, 1x GPU: T4 (BS=31, INT8) | V100 (BS=43, Mixed precision) | A30 (BS=96, INT8) | A100 (BS=174, INT8)
LAMMPS(标准化)
数据集:ReaxFF/C,FP64 | 4 个 GPU:T4,V100 PCIE 16 GB,A30
为了获得新一代的发现成果,科学家们希望通过模拟方式来更好地了解我们周围的世界。
NVIDIA A30 采用 FP64 NVIDIA Ampere 架构 Tensor Core,提供自 GPU 推出以来幅度非常大的 HPC 性能飞跃。配合 24 GB 的 GPU 显存和 933 GB/s 的带宽,可让研究人员快速解决双精度计算问题。HPC 应用程序还可以利用 TF32 提高单精度、密集矩阵乘法运算的吞吐量。
FP64 Tensor Core 与 MIG 的结合能让科研机构安全地对 GPU 进行分区,以允许多位研究人员访问计算资源,同时确保 QoS 和更高的 GPU 利用率。部署 AI 的企业可以在需求高峰时段使用 A30 的推理功能,然后在非高峰时段将同一批计算服务器改用于处理 HPC 和 AI 训练工作负载。
A30 结合 MIG 技术可以更大限度地提高 GPU 加速的基础设施的利用率。借助 MIG,A30 GPU 可划分为多达 4 个独立实例,让多个用户都能使用 GPU 加速功能。
MIG 与 Kubernetes、容器和基于 Hypervisor 的服务器虚拟化配合使用。MIG 可让基础设施管理者为每项作业提供大小合适的 GPU,同时确保 QoS,从而扩大加速计算资源的影响范围,以覆盖每位用户。
* 采用稀疏技术
** NVLink 桥接器可连接多达 2 个 GPU
探索 NVIDIA Ampere 架构的尖端技术