首款搭载 Tensor 核心 GPU
发现隐藏在海量数据中的深刻见解或将革新整个行业,从个性化癌症治疗到帮助虚拟个人助手自然交谈和预测下一次超强飓风。
NVIDIA® V100 Tensor Core 是有史以来极其先进的数据中心 GPU,能加快 AI、高性能计算 (HPC) 和图形技术的发展。其采用 NVIDIA Volta 架构,并带有 16 GB 和 32GB 两种配置,在单个 GPU 中即可提供高达 100 个 CPU 的性能。如今,数据科学家、研究人员和工程师可以减少优化内存使用率的时间,从而将更多时间用于设计下一项 AI 突破性作品。
使用 NVIDIA 虚拟计算服务器 (vCS) 软件,在虚拟环境中运行 AI 和 HPC 工作负载,以实现更好的安全性和可管理性
ResNet-50 训练,数据集:ImageNet2012,BS=256 | NVIDIA V100 比较数据:NVIDIA DGX-2™ 服务器,1 枚 V100 SXM3-32GB 显卡,MXNet 1.5.1,container=19.11-py3,混合精度,吞吐量:1,525 张图像/秒 | 英特尔比较数据:Supermicro SYS-1029GQ-TRT,单路英特尔金牌 6240 处理器(2GHz/3.9Hz Turbo 频率),Tensorflow 0.18,FP32(仅提供精度),吞吐量:48 张图像/秒
从语音识别到训练虚拟个人助理和教会自动驾驶汽车自动驾驶,数据科学家们正利用人工智能解决日益复杂的挑战。解决此类问题需要花大量时间密集训练复杂性飞速增长的深度学习模型。
V100 拥有 640 个 Tensor 内核,是世界上第一个突破 100 万亿次 (TFLOPS) 深度学习性能障碍的 GPU。新一代 NVIDIA NVLink™ 以高达 300 GB/s 的速度连接多个 V100 GPU,在全球打造出功能极其强大的计算服务器。现在,在之前的系统中需要消耗数周计算资源的人工智能模型在几天内就可以完成训练。随着训练时间的大幅缩短,人工智能现在可以解决各类新型问题。
BERT Base 微调推理,数据集:SQuADv1.1,BS=1,sequence length=128 | NVIDIA V100 比较数据:Supermicro SYS-4029GP-TRT,1 枚 V100-PCIE-16GB 显卡,预发布容器,混合精度,NVIDIA TensorRT™ 6.0,吞吐量:557 句/秒 | 英特尔比较数据:单路英特尔金牌 6240 处理器(2.6GHz/3.9Hz Turbo 频率),FP32(仅提供精度),OpenVINO MKL-DNN v0.18,吞吐量:23.5 句/秒
为了利用最相关的信息、服务和产品加强人与人之间的联系,超大规模计算公司已经开始采用人工智能。然而,及时满足用户需求是一项困难的挑战。例如,全球最大的超大规模计算公司最近估计,如果每个用户一天仅花费三分钟时间使用其语音识别服务,他们便需要将数据中心的容量翻倍。
我们设计 V100 就是为了在现有的超大规模服务器机架上提供更高的性能。由于将人工智能作为核心,V100 GPU 可提供比 CPU 服务器高 30 倍的推理性能。这种吞吐量和效率的大幅提升将使人工智能服务的扩展变成现实。
应用程序(数据集):MILC (APEX Medium) 和 Chroma (szscl21_24_128) | CPU 服务器:双路英特尔至强铂金 8280 (Cascade Lake)
高性能计算是现代科学的基石。从天气预报到发现药物和发现新能源,研究人员使用大型计算系统来模拟和预测我们的世界。人工智能可让研究人员分析大量数据,在仅凭模拟无法完全预测真实世界的情况下快速获取见解,从而扩展了传统的高性能计算。
V100 的设计能够融合人工智能和高性能计算。它为高性能计算系统提供了一个平台,在用于科学模拟的计算机科学和用于在数据中发现见解的数据科学方面表现优异。通过在一个统一架构内搭配使用 NVIDIA CUDA® 内核和 Tensor 内核,配备 V100 GPU 的单台服务器可以取代数百台仅配备通用 CPU 的服务器来处理传统的高性能计算和人工智能工作负载。现在,每位研究人员和工程师都可以负担得起使用人工智能超级计算机处理最具挑战性工作的做法。
为深度学习提供卓越性能
通用性出众适合处理各种工作负载
双精度 7.8 TeraFLOPS
单精度 15.7 TeraFLOPS
深度学习 125 TeraFLOPS
双精度 7 TeraFLOPS
单精度 14 TeraFLOPS
深度学习 112 TeraFLOPS
双精度 8.2 teraFLOPS
单精度 16.4 teraFLOPS
深度学习 130 teraFLOPS
NVLink 300 GB/s
PCIe 32 GB/s
容量 32/16 GB HBM2
带宽 900 GB/s
容量 32 GB HBM2
带宽 1134 GB/s
300瓦特
250瓦特
适用于高性能计算与深度学习的 GPU 加速器。
通过 NVIDIA 合作伙伴网络 (NPN) 找到 NVIDIA 加速计算合作伙伴