深入了解 GeForce RTX 40 系列显卡上的显存

我们收到了很多关于显存（也称为帧缓冲区、视频内存或“VRAM”）的问题，因此随着我们全新的 GeForce RTX 4060 系列显卡推出，我们想分享一些见解，以便玩家可以为根据自己的游戏需求做出最佳购买决策。

什么是显存？

显存是位于图形卡上的高速内存。它是更大存储子系统的一个组件，有助于确保您的 GPU 能够访问所需的数据并流畅处理和显示图像。

在本文中，我们将介绍最新一代 Ada Lovelace GPU 架构中的存储子系统创新，以及 GPU 缓存和显存的速度和容量究竟是如何影响性能和游戏体验。

GeForce RTX 40 系列显卡存储子系统：提高性能和效率

现代电脑游戏是计算机图形领域的集大成者，其安装包容量甚至超过 100GB。系统会以不同的速度访问这些海量数据，这取决于 GPU 的规格，以及系统周边其他组件。

在 GeForce RTX 40 系列显卡上，新的创新加速了针对更流畅游戏和更高帧率的处理，帮助您避免纹理贴图瞬间涌入或其他问题。

缓存的重要性

GPU 中包括靠近 GPU 处理核心的高速缓存，用于存储可能需要的数据。如果 GPU 可以从缓存中调用数据，而不是从显存（更远）或系统内存（甚至更远）请求数据，则数据将被更快地访问和处理，从而提高性能和游戏流畅性，并降低功耗。

GeForce GPU 在每个多单元流处理器（SM）中都有一个 1 级（L1）缓存（最接近和最快的缓存），每个 GeForce RTX 40 系列图形处理集群（GPC）中最多可以找到 12 个缓存。其次是快速、更大的共享 2 级（L2）缓存，可以以最小的延迟快速访问。

访问每级缓存都会引入延迟，换来的是更大的缓存容量。在设计 GeForce RTX 40 系列 GPU 时我们发现，相比那些具有小容量 L2 缓存搭配大容量的、访问速度较慢的 L3 缓存的其他方案来说，一个单一的大容量 L2 缓存会更快、更高效。

与全新 GeForce RTX 40 系列 GPU 相比，上一代 GeForce GPU 的 L2 缓存要小得多，导致性能和效率相对较低。

在使用过程中，GPU 首先在 SM 内部的 L1 数据缓存中查找数据，如果在 L1 中找到数据则无需访问 L2 数据缓存。如果在 L1 中未找到数据，则称为“缓存未命中”，并将继续进入 L2 缓存查找。如果在 L2 中找到数据，则称为 L2 “缓存命中”（请参见上图中的“H”标识），数据将提供给 L1，然后提供给处理核心。

如果在 L2 缓存中找不到数据（L2“缓存未命中”），GPU 现在会尝试从显存获取数据。您可以在上图中看到许多 L2 缓存未命中，该图描述了我们之前的架构存储子系统，这会导致许多显存访问。

如果数据在显存中未找到，GPU 会从您的系统内存中请求它。如果数据不在系统内存中，通常可以从 SSD 或硬盘驱动器等存储设备将其加载到系统内存中。然后将数据复制到显存、L2 缓存以及 L1 缓存，并最终馈送到处理核心。请注意，存在不同的基于硬件或软件的策略来将最有用和最常访问的数据保留在缓存中。

每一次通过显存层级结构的读写数据操作都会降低性能并消耗更多功率，因此通过提高缓存命中率，我们可以提高帧率和效率。

与具有 128 位显存位宽的上一代 GPU 相比，全新 NVIDIA Ada Lovelace 架构的存储子系统将 L2 缓存的大小增加了 16 倍，极大提高了缓存命中率。在上面的示例中展示的 Ada 和上一代架构的 128 位 GPU，Ada 的命中率要高得多。此外，与之前的 GPU 相比，Ada GPU 中的 L2 缓存带宽已显着增加。这使得在处理核心和 L2 缓存之间传输更多数据成为可能。

如下图所示，NVIDIA 工程师测试了具有 32 MB L2 缓存的 RTX 4060 Ti 与仅使用 2 MB L2 的 RTX 4060 Ti 的特殊测试版本，这代表了上一代 128 位 GPU 的 L2 缓存大小（其中每个 512 KB 的 L2 缓存绑定到对应的一个 32 位显存控制器）。

在各种游戏和综合基准测试中，与 2 MB 二级缓存的性能相比，32 MB 二级缓存将显存总线流量平均降低了 50% 以上。请参考上面 Ada 存储子系统图中降低的显存访问量。

这种 50% 的流量减少使 GPU 能够更有效地使用其显存带宽，效率提升可达近 2 倍。因此，在这种情况下，隔离显存性能，具有 288 GB/秒峰值显存带宽的 Ada GPU 的性能与具有 554 GB/秒峰值显存带宽的 Ampere GPU 的性能相似。在一系列游戏和综合测试中，大大提高的缓存命中率将游戏帧率提高了高达 34%。

显存总线位宽是存储子系统的一个方面

从历史上看，显存位宽一直被用作确定新 GPU 的速度和性能等级的重要指标。然而，显存位宽本身并不能充分表明存储子系统的性能。相反，更全面的了解存储子系统设计及其对游戏性能的整体影响是有帮助的。

由于 Ada 架构的优势，包括新的 RT 和 Tensor 核心、更高的时钟速度、新的 OFA 引擎和 Ada 的 DLSS 3 功能，GeForce RTX 4060 Ti 比上一代采用 256 位的 GeForce RTX 3060 Ti 和 RTX 2060 SUPER 显卡更快，同时功耗更低。

总而言之，这些技术规格为占 Steam 平台绝大多数的 1080p 游戏玩家提供了出色的 60 级 GPU 和高性能体验。

显存的大小取决于 GPU 架构

游戏玩家常常想知道为什么显卡有特定大小的显存。

当前一代的 GDDR6X 和 GDDR6 显存以每个芯片 8Gb（1GB 数据）和 16Gb（2GB 数据）的容量提供。每个显存芯片可以使用两个独立的 16 位通道连接到一个 32 位显存控制器；或者每个显存芯片使用两个 8 位通道，因此两个显存芯片可以连接到一个 32 位显存控制器。这允许 128 位 GPU 支持 4 个显存芯片或 8 个显存芯片。

更高容量的芯片制造成本更高，因此需要平衡以优化成本。

在我们新的 128 位显存总线 GeForce RTX 4060 Ti GPU 上，8GB 型号使用四个 16Gb GDDR6 芯片，16GB 型号使用八个 16Gb 芯片。不同容量显存芯片的混合使用是不可能的，例如，这里无法去做 12GB 的型号。这也是为什么 GeForce RTX 4060 Ti 相比 GeForce RTX 4070 Ti 和 4070 具有一个更大显存 (16GB) 的选项，后者具有 192 位显存位宽和 12GB 的显存。

我们的 60 级 GPU 经过精心打造，可提供性能、价格和能效的最佳组合，这就是我们选择 128 位显存位宽的原因。

简而言之，具有相同显存位宽的更高容量的 GPU 总是具有双倍的内存。

On Screen Display (OSD) 工具是否准确报告显存使用情况？

游戏玩家经常引用 On Screen Display 性能测量工具中的“显存使用”指标。但这个数字并不完全准确，因为所有游戏和游戏引擎的工作方式都不同。

在大多数情况下，游戏会为自己分配显存，并对您的系统说，“我想要它以备不时之需”。但仅仅因为它占用了显存，并不意味着它实际上需要所有这些。事实上，如果可用，游戏通常会请求更多显存。

显存的工作方式，使得除非您是可以使用开发工具的游戏开发人员，否则不可能准确知道真正在使用中的显存大小。有些游戏在选项菜单中提供了指南，但即便如此也并不总是准确的。

实际需要的显存大小会根据场景和玩家所看到的内容实时变化。

此外，当显存真正被最大限度地使用时，游戏的行为可能会有所不同。在某些情况下，当当前场景重新加载到显存中时，数据被清除会导致明显的性能障碍。在其他情况下，只会加载和卸载选定的数据，没有明显的影响。在某些情况下，新数据的加载速度可能会较慢，因为它们现在是从系统内存中引入的。

对于游戏玩家而言，体验是真正了解游戏性能的唯一途径。此外，游戏玩家可以查看“1% low”帧率测量值，这有助于分析实际游戏体验。1% Low 指标——可以在免费的 NVIDIA FrameView 应用中，使用性能浮窗和日志中找到，同样也可以使用其他流行的测量值工具——测量特定时间段内 1% Low FPS 的平均值。

使用 GeForce Experience 自动选择设置并下载最新补丁

最近，一些新游戏发布了补丁，以在不影响视觉质量的情况下更好地管理显存使用。确保获得新发布的最新补丁，因为它们通常会在发布后不久修复错误并优化性能。

此外，GeForce Experience 支持大多数新游戏，为每个受支持的 GeForce GPU 和显存配置提供优化设置，通过平衡性能和图像质量为游戏玩家提供最佳体验。

如果您不熟悉游戏选项术语，只想从加载游戏的那一刻开始享受游戏，GeForce Experience 可以自动调整游戏设置，让您每次都能获得出色的体验。

NVIDIA 技术帮助开发者减少显存使用

游戏比以往任何时候都更丰富、更详细，往往需要 100GB 以上的安装空间。为了帮助开发者优化显存使用，NVIDIA 提供了多种免费的开发者工具和 SDK，包括：

NVIDIA RTX Memory Utility (RTXMU)：光线追踪需要额外的显存。 RTXMU 最多可将此使用量减少 50%
NVIDIA Micro-Mesh SDK：减少复杂几何体的显存使用，同时提高性能
NVIDIA Texture Tools Exporter：创建高度压缩的纹理文件以减少显存使用和游戏文件大小

这些只是 NVIDIA 免费提供的一些工具和技术，可帮助开发者针对所有 GPU、平台和显存配置优化他们的游戏。

一些应用程序会用到更多显存

除了游戏之外，GeForce RTX 显卡还在全球范围内用于 3D 动画、视频编辑、动态图形、摄影、平面设计、建筑可视化、STEM、直播和 AI。这些行业中使用的一些应用可能会受益于额外的大显存。例如，在 Premiere 中编辑 4K 或 8K 时间轴，或在 D5渲染器中制作大型建筑场景时。

在游戏方面，高分辨率通常也需要增加显存。有时，游戏可能会启动一个可选的超大纹理包并分配更多显存。一小部分游戏在 4060 Ti 8GB 的“高画质”设置下运行最佳，而在 4060 Ti 16GB 上可以开启最高画质设置运行。而在大多数游戏中，两个版本的 GeForce RTX 4060 Ti（8GB 和 16GB）都可以在最高画质设置下运行并提供相同的性能。

PC 平台的优势在于其开放性、可配置性和可升级性，这就是我们为 GeForce RTX 4060 Ti 提供两种显存配置的原因；如果您想要额外的显存，GeForce RTX 4060 Ti 16GB会在 7 月上市。

适合每一位玩家的 GPU

随着 GeForce RTX 4060 系列的推出，适用于三种主流分辨率的显卡均已发布。无论您玩什么游戏，所有 GeForce RTX 40 系列 GPU 都将提供一流的体验，具有领先的能效，并得到大量游戏增强技术的支持，包括 NVIDIA DLSS 3、NVIDIA Reflex、NVIDIA G-SYNC、NVIDIA Broadcast 和 RTX Remix。

有关充分利用 GeForce RTX 显卡所有功能的全部新游戏和应用的最新消息，请继续关注 GeForce.cn。