AI 推理

NVIDIA Dynamo

将生成式 AI 快速扩展和服务化部署

开始体验

阅读新闻稿 | 阅读技术博客

概述
功能
优势
启动选项
应用场景
客户证言
资源
下一步

概述
功能
优势
启动选项
应用场景
客户证言
资源
下一步

开始体验

概览

面向生成式 AI 的低延迟分布式推理

NVIDIA Dynamo 是一个开源的模块化推理框架，用于在分布式环境上实现生成式 AI 模型的服务化部署。它能够通过动态资源调度、智能请求路由、优化的内存管理和加速的数据传输，无缝扩展大型 GPU 集群之间的推理工作负载。

在 NVIDIA GB200 NVL72 上部署开源的 DeepSeek-R1 671B 推理模型时，NVIDIA Dynamo 将处理的请求数量提高至 30 倍，使其成为构建 “ AI 工厂” 的理想解决方案，这些 AI 工厂旨在以最低的成本运行，从而最大化 token 收入。NVIDIA Dynamo 支持所有主要的 AI 推理后端，并提供针对 LLM 的定制化优化技术，例如分离服务 (disaggregated serving)，从而以最低的成本和最高的效率加速和扩展 AI 推理模型。Dynamo 将是 NVIDIA AI Enterprise 的未来版本的一部分。

NVIDIA Dynamo 基于 NVIDIA Triton 推理服务器的成功经验构建。Triton 推理服务器是一款企业级的开源软件，针对各种工作负载标准化 AI 模型的部署和执行。您可以通过 NVIDIA AI Enterprise 使用 Triton 推理服务器，从而获得企业级的支持、安全稳定性和可管理性。

什么是分布式推理？

分布式推理是在多个计算设备或节点上运行 AI 模型推理的过程，通过并行计算最大限度地提高吞吐量。

这种方法通过在 GPU 或云基础设施之间分配工作负载，来实现大规模 AI 应用的高效扩展，例如生成式 AI 应用。分布式推理允许用户根据每个工作负载的独特要求来优化延迟和吞吐量，从而提高整体性能和资源利用率。

功能

探索 NVIDIA Dynamo 的功能

分离服务
(Disaggregated Serving)

将 LLM 上下文（预填充）和生成（解码）阶段分离到不同的 GPU 上，从而实现定制化的模型并行和独立的 GPU 资源分配，以提升每个 GPU 处理的请求数量。

GPU 规划器
(GPU Planner)

监控分布式推理环境中的 GPU 容量，并在上下文和生成阶段之间动态分配 GPU 工作线程，以解决瓶颈并优化性能。

智能路由器
(Smart Router)

高效地路由推理流量，最小化因为重复或重叠请求导致的昂贵重复计算，以节省计算资源，同时确保在大型 GPU 集群之间实现均衡的负载分配。

NVIDIA 推理传输库
(NVIDIA Inference Transfer Library, NIXL)

加速分布式推理环境中的数据搬运，同时简化不同硬件（包括 GPU、CPU、网络和存储）之间的传输复杂性。

优势

NVIDIA Dynamo 的优势

从一个 GPU 无缝扩展到数千个 GPU

通过预先构建、易于部署的工具简化和自动化 GPU 集群设置，并通过针对 LLM 特征的实时指标，实现动态自动扩缩容，从而避免 GPU 资源配置过度或不足。

提高推理服务化能力，同时降低成本

利用先进的 LLM 推理服务服务化部署优化功能（例如分离服务），在不影响用户体验的情况下，增加可处理的推理请求数量。

让您的 AI 基础设施面向未来，避免成本高昂的项目迁移

有赖开源和模块化的设计，你可以根据自己的独特需求，轻松地定制化选择推理服务组件，确保与你现有的 AI 技术栈兼容，从而避免成本高昂的项目迁移。

加快在生产环境中新 AI 模型的部署

NVIDIA Dynamo 支持所有主要框架，包括 TensorRT-LLM、vLLM、SGLang、PyTorch 等，确保你能够快速部署新的生成式 AI 模型，无论其采用了哪个后端。

加速分布式推理

NVIDIA Dynamo 完全开源，提供完全的透明度和灵活性。部署 NVIDIA Dynamo，助力其发展，并将其无缝集成到现有技术栈中。

在 GitHub 上查看并加入社区！

开始体验

开发

适合希望获取 Triton 推理服务器开源代码进行开发的个人。

获取代码

开发

适合希望获取免费 Triton 推理服务器容器进行开发的个人。

获取容器

体验

可在 NVIDIA LaunchPad 上免费访问由 NVIDIA 托管的基础设施和讲师指导的实战实验（包括分步说明和示例）。

访问实战实验室

部署

获取免费许可证，使用现有基础设施在生产环境中试用 NVIDIA AI Enterprise 90 天。

申请 90 天许可证

应用场景

使用 NVIDIA Dynamo 部署 AI

了解如何通过 NVIDIA Dynamo 推动创新。

推理模型服务化
分布式推理
可扩展的 AI 智能体
代码生成

推理模型服务化

推理模型会生成更多 token 来解决复杂问题，从而提高推理成本。NVIDIA Dynamo 可以通过分离服务等功能，来优化这些模型。这种方法将预填充和解码计算阶段分离到不同的 GPU 上，让 AI 推理团队能够独立优化每个阶段。这种方法将带来更出色的资源利用率，在每个 GPU 上以更低的推理成本处理更多的查询。

分布式推理

随着 AI 模型变得过于庞大而无法容纳在单个节点上，实现其高效的服务化成为一项挑战。分布式推理需要将模型拆分到多个节点，这增加了编排、扩展和通信的复杂性。确保这些节点作为一个整体协调运作，尤其是在动态工作负载下，需要精细的管理。NVIDIA Dynamo 通过在 Kubernetes 上提供预构建功能来简化这一过程，它可以无缝处理调度、扩展和服务化，让您专注于部署 AI 而不是管理基础设施。

可扩展的 AI 智能体

AI 智能体依赖于多种模型（LLM、检索系统和专用工具）实时协同运作。扩展这些智能体是一项复杂的挑战，需要智能的 GPU 调度，高效的 KV 缓存管理和超低延迟的通信，才能保持其响应能力。
NVIDIA Dynamo 通过内置的智能 GPU 规划器、智能路由器和低延迟通信库简化了这一过程，使 AI 智能体能够无缝高效地扩展。

代码生成

代码生成通常需要根据模型的响应进行迭代优化，包括调整提示词、明确需求或调试输出结果。这种反复的交互需要在每次用户操作时重新计算上下文，因而增加了推理成本。NVIDIA Dynamo 通过实现上下文复用和将数据卸载到成本效益更高的内存中，最小化昂贵的重复计算，并降低了整体推理成本。

客户证言

看看行业领袖对 NVIDIA Dynamo 的评价

更多客户案例

Cohere

“Scaling advanced AI models requires sophisticated multi-GPU scheduling, seamless coordination and low-latency communication libraries that transfer reasoning contexts seamlessly across memory and storage. We expect Dynamo will help us deliver a premier user experience to our enterprise customers.” Saurabh Baji, Senior Vice President of Engineering at Cohere

Perplexity AI

"Handling hundreds of millions of requests monthly, we rely on NVIDIA’s GPUs and inference software to deliver the performance, reliability, and scale our business and users demand, "We'll look forward to leveraging Dynamo with its enhanced distributed serving capabilities to drive even more inference serving efficiencies and meet the compute demands of new AI reasoning models." Denis Yarats, CTO of Perplexity AI.

Together AI

“Scaling reasoning models cost-effectively requires new advanced inference techniques, including disaggregated serving and context-aware routing. Together AI provides industry leading performance using our proprietary inference engine. The openness and modularity of Dynamo will allow us to seamlessly plug its components into our engine to serve more requests while optimizing resource utilization—maximizing our accelerated computing investment. " Ce Zhang, CTO of Together AI.

Cohere

“扩展先进的 AI 模型需要复杂的多 GPU 调度、无缝协调和低延迟通信库，才能在内存和存储之间无缝传输推理上下文。我们期待 Dynamo 帮助我们为企业客户提供卓越的用户体验。” Saurabh Baji，Cohere 高级工程副总裁

Perplexity AI

“依托 NVIDIA GPU和推理软件，我们每月成功处理数十亿次请求，并满足业务与用户对高性能、高可靠及可扩展服务的需求。” 我们期待利用 Dynamo 强大的分布式服务能力，来进一步提高推理服务效率，并满足新型 AI 推理模型的计算需求。” Denis Yarats，Perplexity AI 首席技术官

Together AI

“经济高效地扩展推理模型，需要新型的前沿推理技术，包括分离服务和上下文感知路由。Together AI 凭借我们专有的推理引擎，提供行业领先的性能。Dynamo 的开放性和模块化使我们能够将其组件无缝地集成到我们的引擎中，在优化资源利用率的同时处理更多请求，这会发挥我们在加速计算领域的最大投资价值。” Ce Zhang，Together AI 首席技术官