NVIDIA Ampere 架构

全球超强弹性数据中心的核心。

现代数据中心的 AI 和 HPC 核心

通过 AI 和 HPC 解决全球最重要的科学、工业和商业挑战。将复杂内容可视化,打造尖端产品,讲述身临其境的故事,并重塑未来城市。从大量数据集中提取新的见解。NVIDIA Ampere 架构专为弹性计算时代设计,能够应对多种挑战,并在各种规模下实现出色的加速。

突破性创新

NVIDIA Ampere 架构以 540 亿个晶体管打造,是有史以来最大的 7 纳米 (nm) 芯片,包含六项关键的突破性创新。

第三代 Tensor 核心

NVIDIA Tensor 核心技术最先运用在 NVIDIA Volta™ 架构上,不只大幅加速人工智能,也将训练时间从数周降至数小时,同时显著提升推论速度。NVIDIA Ampere 架构以这些创新技术为基础,采用全新精度标准 Tensor Float 32 (TF32) 与 64 位浮点 (FP64),以加速并简化人工智能应用,同时将 Tensor 核心效能拓展至高效能运算。

TF32 与 FP32 运作方式相同,无需更改任何程序代码即可将人工智能速度提升至最高 20 倍。透过 NVIDIA 自动混合精度,研究人员只要多加几行程序代码,就可以利用自动混合精度和 FP16 将效能提升 2 倍。而 NVIDIA Ampere 架构 Tensor 核心 GPU 中的 Tensor 核心透过支持 bfloat16、INT8 与 INT4,能为人工智能训练和推论创造极致多元的加速器。A100A30 GPU 不只将强大的 Tensor 核心导入高效能运算,也支持完整矩阵运算、通过 IEEE 认证,并使用 FP64 精度。

第三代 Tensor 核心
多实例 GPU (MIG)

多实例 GPU (MIG)

每个人工智能与高效能运算应用都能受益于加速,但并非所有应用都需要使用 GPU 的完整效能。多实例 GPU (MIG) 是 A100A30 GPU 支持的功能,可让工作负载共享 GPU。MIG 让每个 GPU 能分隔成多个 GPU 实例,各自在硬件中完全独立且受保护,且具备个别的高带宽内存、快取和运算核心。现在不论大小,开发人员可为所有应用提供突破性加速,并获得服务质量保障。IT 管理人员可为最佳利用率提供规模适中的 GPU 加速,并将横跨实体与虚拟环境的访问权限扩展给每个使用者和应用。

结构化稀疏

结构化稀疏

现代人工智能网络相当庞大且越来越大,有数百万、甚至数十亿个参数。精准预测与推论不需要用到所有参数,而有些参数可以转换为零,以确保模型变「稀疏」的同时不会牺牲准确性。Tensor 核心最高可以将稀疏模型的效能提高 2 倍。将模型稀疏化对于人工智能推论有益,同时也能改善模型训练效能。

第二代 RT 核心

NVIDIA A40 中,NVIDIA Ampere 架构的第二代 RT 核心可大幅提升电影作品的拟真渲染、建筑设计评估,以及产品设计的虚拟原型制作等工作负载的速度。RT 核心还能加速光线追踪于动态模糊的渲染效果,以更快的速度获得更高的视觉准确度,还能在执行着色或噪声消除功能的同时,执行光线追踪。

第二代 RT 核心
更聪明、快速的内存

更聪明、快速的内存

A100 为数据中心提供大量运算效能。为充分运用运算引擎,A100 具备领先同级产品的每秒 2 TB (TB/秒) 内存带宽,比前一代产品高出 2 倍多。此外,A100 的芯片内存也显著增加,具备 40 MB 的 2 级快取,为上一代产品的 7 倍,可将运算效能最大化。

为规模化部署而优化

NVIDIA GPU 和 NVIDIA 融合加速器产品专为大规模部署而打造,为云、数据中心和边缘融合网络、提升安全和降低功耗。

为各种服务器优化性能

NVIDIA A2 GPU 提供产品组合中最小的占用空间,针对空间和散热要求受限的入门级服务器中的推理工作负载和部署进行了优化,例如 5G 边缘和工业环境。A2 提供了在低功耗范围内运行的半高外形,将热设计功耗 (TDP) 从 60 瓦降到 40 瓦,使其成为众多服务器的理想选择。

NVIDIA A2 Tensor Core GPU
NVIDIA 融合加速器

统一计算和网络加速

NVIDIA 融合加速器中,NVIDIA Ampere 架构和 NVIDIA BlueField®-2 数据处理器 (DPU) 协力为边缘计算、电信和网络安全领域的 AI 工作负载带来非凡的性能、更高的安全性和更稳定的网络。而 BlueField-2 则将 NVIDIA ConnectX®-6 Dx 的高性能与可编程的 ARM® 核心以及硬件卸载功能相结合,用于软件定义存储、网络建设、安全和管理等方面。NVIDIA 融合加速器能够为网络密集型且需要 GPU 加速的工作负载提供更高水平的数据中心效率和安全性。

密度优化的设计

NVIDIA A16 GPU 采用四 GPU 主板设计,专为用户密度优化,并结合了 NVIDIA 虚拟 PC (vPC) 软件,让用户无论身在何处都可以使用绘图运算丰富的虚拟 PC。与仅使用 CPU 的 VDI 相比,NVIDIA A16 可提供更高的帧速率和较低的终端用户延迟,因此应用程序反应能更灵敏,并带来与原生 PC 无异的使用者体验。

密度优化的设计
硬件信任根  图片仅供位置参考

安全部署

安全部署对企业业务运营至关重要。NVIDIA Ampere 架构通过可信代码身份验证和强化的回滚机制来防御恶意软件攻击,从而支持安全启动,并防止操作损失和确保工作负载加速。

深入了解 NVIDIA Ampere 架构

探索 NVIDIA Ampere 架构的尖端技术