NVIDIA Tensor Core

为生成式 AI 实现大规模加速

Tensor Core 可实现混合精度计算，动态调整算力，从而在保持准确性和提供更强安全性的同时提高吞吐量。在应对广泛的 AI 和高性能计算 (HPC) 任务时，新一代 Tensor Core 的速度更胜以往。NVIDIA Tensor Core 可将万亿级参数生成式 AI 模型的训练速度提高 4 倍，将推理性能提升 30 倍，并加速现代 AI 工厂的所有工作负载。

简介
Blackwell
Hopper
规格

简介

简介
Blackwell
Hopper
规格

革命性 AI 训练

以 FP16 精度训练数万亿级参数生成式 AI 模型需要耗费数月时间。NVIDIA Tensor Core 提供了一个数量级的更高性能，同时降低了精度，例如 Transformer 引擎中的 FP8、Tensor Float 32 (TF32) 和 FP16。通过 CUDA-X™ 库直接支持原生框架，实施可自动完成，从而在保持准确性的同时，大幅缩短从训练到收敛的时间。

突破性推理

要可靠地部署推理，关键的性能要求是在低延迟下实现高吞吐量，同时更大限度地提高利用率。NVIDIA Blackwell 架构的第二代 Transformer 引擎不仅提供出色的性能，还具有加速各种数万亿参数生成式 AI 模型的通用性。

NVIDIA 凭借 Tensor Core 在 MLPerf 行业级推理基准测试中斩获佳绩。

先进 HPC

HPC 是现代科学的基石。为了点燃新一代发现的火花，科学家为药物研发采用模拟的方式更好地理解复杂分子结构，通过仿真物理效果寻找潜在的能源，以及通过仿真大气数据来更好地预测极端天气状况并为之做好准备。NVIDIA Tensor Core 提供了全方位的精度（包括 FP64），能以所需的高精度加速科学计算。

HPC SDK 能够提供必要的编译器、库和工具，用于开发适用于 NVIDIA 平台的 HPC 应用。

NVIDIA Blackwell Tensor Core

第五代

与上一代 NVIDIA Hopper™ 相比，Blackwell 架构可为 GPT-MoE-1.8 T 等大型模型提供 30 倍的加速。第五代 Tensor Core 使这种性能提升成为可能。Blackwell Tensor Core 增加了新的精度，包括社区定义的微缩放格式，从而提供更高的准确性和更高的精度易于替换。

详细了解 NVIDIA Blackwell 架构

全新精度
Transformer 引擎

全新精度格式

随着生成式 AI 模型的规模和复杂性出现爆炸式增长，提高训练和推理性能变得至关重要。为满足这些计算需求，Blackwell Tensor Core 支持新的量化格式和精度，包括社区定义的微缩放格式。

第二代 Transformer 引擎

第二代 Transformer 引擎将定制的 Blackwell Tensor Core 技术与 NVIDIA® TensorRT™ -LLM 和 NeMo™ 框架创新相结合，加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。Transformer 引擎由 Tensor Core 的 FP4 精度提供动力支持，可将性能和效率翻倍，同时为当前和新一代 MoE 模型保持高精度。

Transformer 引擎致力于通过实时性能实现当今 LLM 的普及。企业可以通过部署经济实惠的先进生成式 AI 模型来优化业务流程。

NVIDIA Hopper 架构 Tensor Core

第四代

自推出 Tensor Core 技术以来，NVIDIA GPU 的峰值性能提高了 60 倍，推动了 AI 和 HPC 计算的普及。NVIDIA Hopper 架构通过 Transformer 引擎提升了第四代 Tensor Core，该引擎使用 FP8 精度，为万亿级参数模型训练提供的性能是 FP16 的 6 倍。Hopper Tensor Core 使用 TF32、FP64、FP16 和 INT8 精度，可将性能提升 3 倍，能够加速处理各种工作负载。

详细了解 NVIDIA Hopper 架构

功能强大的端到端 AI 和 HPC 数据中心平台

Tensor Core 是整个 NVIDIA 数据中心解决方案的基本构件，该解决方案包含来自 NVIDIA NGC™ 目录的硬件、网络、软件、库以及优化的 AI 模型和应用。作为强大的端到端 AI 和 HPC 平台，它让研究人员能够获得真实的结果，并能将解决方案大规模部署到生产环境中。

	Blackwell	Hopper
Tensor Core 支持的精度	FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4	FP64, TF32, BF16, FP16, FP8, INT8
CUDA^® Core 支持的精度	FP64, FP32, FP16, BF16	FP64, FP32, FP16, BF16, INT8

* 初步规格，可能会有所变更

详细了解 NVIDIA Blackwell。

了解详情