功效 (功率效率)

功效是指计算资源能够将电力转化为有用功的能力,同时尽可能减少浪费或损失。它通常以每瓦(或每项任务瓦)的任务来衡量,对于应对电力受限的数据中心和实现可持续计算越来越重要。

什么是功效?

计算环境在给定电能速率下完成的工作越多,功效就越高。提高计算设备的能源效率,使其在单位能耗下完成更多工作,也可能提高整体功效。

2014 年常用功率共享(PUE=1.75)

2014 年,典型的美国数据中心能源使用明细显示,其中 57%的电力用于 IT 设备,43%的电力用于冷却、配电、照明和其他用途。

通过降低用电效率 (PUE) 比,可以提高功效,因此进入数据中心的更多电力用于计算,而用于冷却或在配电基础设施中损失的电力较少。相比较通用 CPU,还可以使用专用加速器(例如 GPUDPU)高效地完成特定任务。

功效为何重要?

不断增长的计算集群需要更多的电力来运行和冷却设备,电力会产生额外的温室气体 (GHG),增加成本,并且通常超过数据中心的可用功率。

  1. 更低的运营成本:提高功效可减少运营成本,这意味着只需在电力上投入相同的成本,即可完成更多有用的工作。
  2. 克服电力限制:许多现有数据中心无法分配额外的电力,而且许多新数据中心对其功耗有严格限制。增加工作量的唯一方法是提高功效。
  3. 保护环境:传统的发电会产生温室气体,从而加速气候变化。提高功效会降低功耗和温室气体的产生。数据中心还可以改用可再生能源供电,以进一步减少每单位用电产生的温室气体量。
  4. 降低冷却成本:每瓦功率都需要冷却。降低服务器和网络级别的功耗,同时寻找替代方法来管理无电散热,从而降低冷却所需的功率。

使用加速器技术来提高服务器效率并提高配电和冷却效率,可以显著降低数据中心的功耗。这可以降低运营成本,提高数据中心的计算能力,并降低温室气体排放。

功效如何发挥作用

通过提高服务器和网络的功效以及改善数据中心的 PUE,实现了功效提升。

  1. 加速计算:GPU 比通用 CPU 更快速、更高效地执行特定类型的计算,可让服务器在更短的时间内完成更多工作,同时减少耗电量。
  2. 基础设施卸载:与 CPU 相比,NVIDIA® BlueField® 等 DPU 可以更快地处理网络、安全、监控和管理任务,通常会减少每台服务器的电力需求,并减少运行应用程序所需的服务器数量。
  3. 更高效的 CPU:对于许多热门的 AI 和机器学习工作负载,基于 Arm® 的 CPU (例如 NVIDIA Grace™)每瓦可完成的工作量比 x86 CPU 高 2 倍。
  4. 服务器互连和网络:在 CPU 和 GPU 之间使用 NVIDIA NVLink™ 和 NVSwitch™ 等创新互联技术可加快计算速度,从而减少任务能耗。使用更高带宽、更高基数的交换机和更高效的网络收发器可提高网络的功效。
  5. 冷却和配电:实施更高效的配电(如不间断电源和配电单元 (PDU))以及更高效的冷却解决方案(如热通道和冷通道分离以及自由风冷),可减少在到达计算和网络设备之前的电力损失。这提高了 PUE 比率。

结合使用这些解决方案可显著减少每个应用程序或计算任务的耗电量,从而提高功效。

什么有助于提高服务器的功效?

GPU 加速

与通用 CPU 相比,NVIDIA GPU 可以并行处理数百个线程,并更高效地执行许多数学和图形任务。将高度并行和/或数学和图形密集型工作负载转移到 GPU 可让 GPU 更快地运行数量级,从而更快、更节能地完成任务。此外,NVIDIA AI 框架在将工作负载从 CPU 转移到 GPU 时,进一步提高功效。NVIDIA GPU 和 AI 的结合高性能计算 (HPC) 或可视化软件为数据中心带来了巨大的功效提升。

DPU 加速

我们的 NVIDIA BlueField DPU 可卸载、加速和隔离基础设施工作负载与 CPU,从而提高性能和功效。BlueField 可将网络、存储、安全和管理任务转移到专用芯片上,比通用 CPU 更高效地执行这些任务,并释放 CPU 核心来运行业务和科学应用程序。

CPU 效率

我们的 NVIDIA Grace CPU 还使用 LPDDR5X 内存,提供比上一代服务器内存高 2 倍的带宽和 10 倍的功效。对于传统计算任务,AMD 和 Intel 的较新 x86 CPU 比旧 x86 CPU 更节能。

互联和网络效率

在 CPU、GPU 和内存之间使用更高效的互连技术,可显著提高服务器的功效。NVIDIA NVIDIA NVLink 和 NVSwitch 与 PCie 5.0 相比,NVIDIA Quantum-2 InfiniBand 可连接 GPU,其带宽提升高达 7 倍,功效提升数倍。采用网络计算的 NVIDIA Quantum - 2 InfiniBand 通过在网络中执行计算任务并减少所需交换机的数量,以尽可能出色的性能和效率连接 AI 和 HPC 集群。NVIDIA Spectrum® 交换机为 AI 提供更高效的 200G/400G/800G 以太网。配备 ConnectX® 适配器和 BlueField DPU 的 NVIDIA LinkX® 线缆和收发器支持直接驱动,以降低每个收发器的功耗。

NVIDIA 功效示例

我们的NVIDIA Hooper 架构 GPU 功效几乎是上一代 NVIDIA Ampere 架构 GPU 的 2 倍。

在 Omniverse 中与上一代 DGX 相比,NVIDIA DGX™ Ampere 架构系统 AI 训练应用的功效提高近 5 倍

截至 2022 年 11 月,NVIDIA GPU 和网络技术为排名前 30 的超级计算系统中的 23 个提供动力支持包括排名第一的 Green500 系统。

NVIDIA Grace CPU 提供功效提升高达 2 倍所选应用程序的 x86 CPU.

NVIDIA BlueField DPU 可以帮助服务器消耗高达每单位工作的功耗降低 30%

VMware vSphere 8 上的 Redis 内存缓存服务上运行 Redis 内存缓存服务,将网络卸载到 BlueField DPU 可以将每个任务的功耗降低 34%。

NVIDIA GeForce RTX™ 40 系列笔记本电脑采用 NVIDIA Ada Lovelace GPU 架构和第五代 Max-Q 技术,与上一代产品相比功效提升高达 3 倍

如何开始使用功效?

以下是一些开始提高数据中心功效的方法:

  1. 了解哪些工作负载可以通过 NVIDIA GPU 和框架进行加速。这些通常是 AI、HPC、科学计算、可视化和数字孪生应用。
  2. 升级到最新的 CPU、GPU 和加速框架,以提高性能和效率。
  3. 了解 DPU 卸载和加速数据中心基础设施的能力,包括网络(SDN、防火墙、负载均衡器、数据包检查等)、加密、遥测和管理。
  4. 评估哪些 AI 和 HPC 工作负载可以在 NVIDIA Grace CPU 或 NVIDIA Grace Hopper 超级芯片
  5. 通过使用 NVIDIA 200G/400G Quantum InfiniBand 或 200G/400G/800G Spectrum 以太网交换机升级网络,估算您所需的交换机和线缆数量以及可节省的电量。
  6. 计算数据中心和/或云服务提供商的 PUE 比率,然后确定可以提高多少。
  7. 提高来自可再生能源的能源百分比,并考虑将您的下一个数据中心或托管中心设在可再生电力更多、自由空气冷却频率更高的地方。

探索更多资源

能效说明

想要了解有关能效的更多信息?查看 NVIDIA 能效术语表页面。

NVIDIA BlueField DPU 提高数据中心效率

与主要的 NVIDIA 合作伙伴一起了解 DPU 如何在测试中降低功耗。

DPU 功效研究

了解 DPU 如何将功耗降低 30%,为大型数据中心节省 5600 万美元。

使用 DPU 打造节能高效的数据中心

查看有关 BlueField DPU 节能的研究,并获得数据中心效率问题的答案。

后续步骤

探索用于可持续计算的 NVIDIA 资源库。