Tensor Core 可实现混合精度计算,动态调整算力,从而在保持准确性和提供更强安全性的同时提高吞吐量。在应对广泛的 AI 和高性能计算 (HPC) 任务时,新一代 Tensor Core 的速度更胜以往。NVIDIA Tensor Core 可将万亿级参数生成式 AI 模型的训练速度提高 4 倍,将推理性能提升 30 倍,并加速现代 AI 工厂的所有工作负载。
与上一代 NVIDIA Hopper™ 相比,Blackwell 架构可为 GPT-MoE-1.8 T 等大型模型提供 30 倍的加速。第五代 Tensor Core 使这种性能提升成为可能。Blackwell Tensor Core 增加了新的精度,包括社区定义的微缩放格式,从而提供更高的准确性和更高的精度易于替换。
随着生成式 AI 模型的规模和复杂性出现爆炸式增长,提高训练和推理性能变得至关重要。为满足这些计算需求,Blackwell Tensor Core 支持新的量化格式和精度,包括社区定义的微缩放格式。
自推出 Tensor Core 技术以来,NVIDIA GPU 的峰值性能提高了 60 倍,推动了 AI 和 HPC 计算的普及。NVIDIA Hopper 架构通过 Transformer 引擎提升了第四代 Tensor Core,该引擎使用 FP8 精度,为万亿级参数模型训练提供的性能是 FP16 的 6 倍。Hopper Tensor Core 使用 TF32、FP64、FP16 和 INT8 精度,可将性能提升 3 倍,能够加速处理各种工作负载。
Tensor Core 是整个 NVIDIA 数据中心解决方案的基本构件,该解决方案包含来自 NVIDIA NGC™ 目录的硬件、网络、软件、库以及优化的 AI 模型和应用。作为强大的端到端 AI 和 HPC 平台,它让研究人员能够获得真实的结果,并能将解决方案大规模部署到生产环境中。
Blackwell | Hopper | |
---|---|---|
Tensor Core 支持的精度 | FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 | FP64, TF32, BF16, FP16, FP8, INT8 |
CUDA® Core 支持的精度 | FP64, FP32, FP16, BF16 | FP64, FP32, FP16, BF16, INT8 |
* 初步规格,可能会有所变更
详细了解 NVIDIA Blackwell。