NVIDIA A100 Tensor Core GPU

在各种规模下实现出色的加速

加速当今时代的重要工作

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本,A100 80GB 将 GPU 显存增加了一倍,并提供超快速的显存带宽(每秒超过 2 万亿字节 [TB/s]),可处理超大型模型和数据集。

AI 和元宇宙时代的盛会

开发者大会 3 月 20-23 日 | 主题演讲 3 月 21 日

请勿错过 GTC 上的这些前沿 AI 应用会议

李星澜:一个基于实时智能交互系统打造的“真实”数字生命

智能 NPC 和数字人的概念长期以来一直应用于娱乐行业和社交媒体平台,包括人工智能驱动的主持人、评论员和网红。但开发具有高视觉保真度的逼真智能 AI 通常需要大量时间,而且成本很高,很难扩大规模。 在科幻生存游戏《星球重启》项目中,我们提出了一个 GPU 驱动的系统,包括文本到语音模块、音频到全身动画模块、视频分析模块、渲染模块和聊天机器人模块,基于这些模块可以构建一个逼真的实时交互数字人。在 NVIDIA Omniverse 的支持下,我们可以实时高效地渲染李星澜,而且其中的动画模块将根据后端聊天机器人的输出自动驱动角色模型的运动。动画模块和后台聊天机器人都是基于自定义开发的深度神经网络。使用 NVIDIA Omniverse ACE,我们能够在两天内完全训练 audio2motion 和 text2speech 模型,并在 5 天内训练超大参数的 Chatbot 神经网络模型,我们使用了超过 10tb 的训练数据。 在本次演讲中,我们将介绍如何利用 NVIDIA Omniverse 和 NVIDIA GPU,利用计算机图形学和人工智能功能构建李星澜数字人项目。

飞桨深度学习平台高效支持大模型生产及应用

源于百度业务对人工智能技术的广泛应用,飞桨深度学习平台结合应用持续创新,研发了业界领先的大规模分布式训练技术。飞桨先后发布了4D混合并行训练、端到端自适应分布式训练、超大规模图训练引擎等核心技术,并基于这些技术支持文心大模型的训练和部署。目前,文心大模型已经覆盖基础大模型、任务大模型、行业大模型的三级体系,飞桨+文心大模型赋能千行百业的智能化升级。

GPU 加速大规模向量索引构建

大规模向量检索引擎在腾讯诸多业务中有所应用,在百亿级召回场景中提供低延迟、高召回率的在线服务。但随着索引规模的增加,向量索引的构建已经成为日常索引更新瓶颈。离线向量 IVF 索引构建,在引入 GPU 优化之前,索引构建工作依托 Hadoop 平台进行,引入 NVIDIA GPU 改造后索引构建成本降低 60%。索引构建的优化工作主要由两部分组成: 1. IVF KMeans 聚类。在百亿规模向量索引场景下索引构建需要产出千万级的聚类中心。与 NVIDIA 深入合作,集成开源的 RAPIDS Raft 计算库中分层 Kmeans 算法代替原有的 CPU 聚类方法,使用 cutlass 加速向量矩阵运算,使得 Kmeans 训练耗时压缩 90%。 2. 百亿向量在海量聚类中心上的 FIT 过程。百亿级的向量在千万级聚类中心的 FIT 在原有的索引构建方案中是耗时最大的步骤。通过引入 GPU cutlass 加速,FIT 耗时压缩 75%。

适用于 AI 的企业就绪软件

NVIDIA EGX 平台中包括能够在整个基础架构中实现加速计算的优化软件。利用 NVIDIA AI Enterprise 软件套件,企业可以访问端到端的云原生 AI 和数据分析软件,该软件套件经 NVIDIA 优化、认证和支持,可在基于 NVIDIA 认证系统™ 的 VMware vSphere 上运行。NVIDIA AI 企业包括 NVIDIA 的关键支持技术,用于在现代混合云中快速部署、管理和扩展 AI 工作负载。

功能强大的端到端 AI 和 HPC 数据中心平台

A100 是整个 NVIDIA 数据中心解决方案的一部分,该解决方案由硬件、网络、软件、库以及 NGC 中经优化的 AI 模型和应用等叠加而成。它为数据中心提供了强大的端到端 AI 和 HPC 平台,让研究人员能够快速交付真实的结果,并且大规模地将解决方案部署到生产环境中。

 

制作 Ampere 视频

深度学习训练

针对大型模型提供高达 3 倍的 AI 训练速度

DLRM 训练

针对大型模型提供高达 3 倍的 AI 训练速度

当今的 AI 模型面临着对话式 AI 等更高层次的挑战,这促使其复杂度呈爆炸式增长。训练这些模型需要大规模的计算能力和可扩展性。

NVIDIA A100 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度,可提供比 NVIDIA Volta 高 20 倍之多的性能,并且无需更改代码;若使用自动混合精度和 FP16,性能可进一步提升 2 倍。与 NVIDIA® NVLink®、NVIDIA NVSwitch、PCIe 4.0、NVIDIA® InfiniBand®NVIDIA Magnum IO SDK 结合使用时,它能扩展到数千个 A100 GPU。

2048 个 A100 GPU 可在一分钟内成规模地处理 BERT 之类的训练工作负载,这是非常快速的解决问题速度。

对于具有庞大数据表的超大型模型(例如深度学习推荐模型 [DLRM]),A100 80GB 可为每个节点提供高达 1.3TB 的统一显存,而且吞吐量比 A100 40GB 多高达 3 倍。

NVIDIA 的领先地位在 MLPerf 这个行业级 AI 训练基准测试中得到印证,创下多项性能纪录。

深度学习推理

A100 引入了突破性的功能来优化推理工作负载。它能在从 FP32 到 INT4 的整个精度范围内进行加速。多实例 GPU (MIG) 技术允许多个网络同时基于单个 A100 运行,从而优化计算资源的利用率。在 A100 其他推理性能增益的基础之上,仅结构稀疏支持一项就能带来高达两倍的性能提升。

在 BERT 等先进的对话式 AI 模型上,A100 可将推理吞吐量提升到高达 CPU 的 249 倍。

在受到批量大小限制的极复杂模型(例如用于自动语音识别用途的 RNN-T)上,显存容量有所增加的 A100 80GB 能使每个 MIG 的大小增加一倍,并提供比 A100 40GB 高 1.25 倍的吞吐量。

NVIDIA 产品的出色性能在 MLPerf 推理测试中得到验证。A100 再将性能提升了 20 倍,进一步扩大了这种性能优势。

与 CPU 相比,AI 推理性能提升
高达 249 倍

BERT-LARGE 推理

与 CPU 相比,AI 推理性能提升 249 倍

与 A100 40GB 相比,AI 推理性能提升
1.25 倍

RNN-T 推理:单流

与 A100 40GB 相比,AI 推理性能提升 1.25 倍

高性能计算

为了获得新一代的发现成果,科学家们希望通过仿真来更好地了解我们周围的世界。

NVIDIA A100 采用双精度 Tensor Core,实现了自 GPU 推出以来高性能计算性能的巨大飞跃。结合 80GB 的超快 GPU 显存,研究人员可以在 A100 上将 10 小时双精度仿真缩短到 4 小时以内。HPC 应用还可以利用 TF32 将单精度、密集矩阵乘法运算的吞吐量提高高达 10 倍。

对于具有超大数据集的高性能计算应用,显存容量增加的 A100 80GB 可在运行材料仿真 Quantum Espresso 时将吞吐量提升高达 2 倍。极大的显存容量和超快速的显存带宽使 A100 80GB 非常适合用作新一代工作负载的平台。

四年来 HPC 性能提升 11 倍

热门 HPC 应用

四年来 HPC 性能提升 11 倍

HPC 应用的性能提升高达 1.8 倍

Quantum Espresso

HPC 应用的性能提升高达 1.8 倍

高性能数据分析

相较于 A100 40GB,在大数据分析基准测试中速度提升 2 倍

相较于 A100 40GB,在大数据分析基准测试中速度提升 2 倍

数据科学家需要能够分析和可视化庞大的数据集,并将其转化为宝贵见解。但是,由于数据集分散在多台服务器上,横向扩展解决方案往往会陷入困境。

搭载 A100 的加速服务器可以提供必要的计算能力,并能利用大容量显存、超过 2 TB/s 的显存带宽以及通过 NVIDIA® NVLink® 和 NVSwitch 实现的可扩展性,处理这些工作负载。通过结合 InfiniBand、NVIDIA Magnum IORAPIDS 开源库套件(包括用于执行 GPU 加速的数据分析的 RAPIDS Accelerator for Apache Spark),NVIDIA 数据中心平台能够加速这些大型工作负载,并实现超高的性能和效率水平。

在大数据分析基准测试中,A100 80GB 提供的见解吞吐量比 A100 40GB 高两倍,因此非常适合处理数据集大小急增的新型工作负载。

为企业提高资源利用率

借助多实例 GPU (MIG),推理吞吐量可提升高达 7 倍

BERT Large 推理

借助多实例 GPU (MIG),推理吞吐量可提升高达 7 倍

A100 结合 MIG 技术可以更大限度地提高 GPU 加速的基础设施的利用率。借助 MIG,A100 GPU 可划分为多达 7 个独立实例,让多个用户都能使用 GPU 加速功能。借助 A100 40GB,每个 MIG 实例可分配多达 5GB,而随着 A100 80GB 显存容量的增加,此大小可翻倍至 10GB。

MIG 与 Kubernetes、容器和基于服务器虚拟化平台的服务器虚拟化配合使用。MIG 可让基础设施管理者为每项作业提供大小合适的 GPU,同时确保服务质量 (QoS),从而扩大加速计算资源的影响范围,以覆盖每位用户。

充分利用您的系统

由 A100、NVIDIA Mellanox SmartnNIC 和 DPU 构成的 NVIDIA 认证系统,已通过性能、功能、可扩展性和安全性认证,使企业可方便地从 NVIDIA NGC 目录中为 AI 工作负载部署完整的解决方案。

数据中心 GPU

适用于 HGX 的 NVIDIA A100

适用于 HGX 的 NVIDIA A100

性能出色,轻松处理各种工作负载。

PCIe 版 NVIDIA A100

PCIe 版 NVIDIA A100

十分适合处理各种工作负载。

规格

  A100 80GB PCIe A100 80GB SXM
FP64 9.7 TFLOPS
FP64 Tensor Core 19.5 TFLOPS
FP32 19.5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS | 312 TFLOPS*
BFLOAT16 Tensor Core 312 TFLOPS | 624 TFLOPS*
FP16 Tensor Core 312 TFLOPS | 624 TFLOPS*
INT8 Tensor Core 624 TOPS | 1248 TOPS*
GPU 显存 80GB HBM2 80GB HBM2e
GPU 显存带宽 1935 GB/s 2039 GB/s
最大热设计功耗 (TDP) 300W 400W ***
多实例 GPU 最大为 7 MIG @ 5GB 最大为 7 MIG @ 10GB
外形规格 PCIe
双插槽风冷式或单插槽液冷式
SXM
互连 NVIDIA® NVLink® 桥接器
2 块 GPU:600 GB/s **
PCIe 4.0:64 GB/s
NVLink:600 GB/s
PCIe 4.0:64 GB/s
服务器选项 合作伙伴及配备 1 至 8 个 GPU 的 NVIDIA 认证系统™ NVIDIA HGX™ A100 合作伙伴和配备 4、8 或 16 块 GPU 的 NVIDIA 认证系统 配备 8 块 GPU 的 NVIDIA DGX™ A100
 

查看新的 MLPerf 基准测试数据

深入了解 NVIDIA Ampere 架构

了解 NVIDIA Ampere 架构的新内容及其在 NVIDIA A100 GPU 中的实现。