简化模型部署

利用 NVIDIA Triton Inference Server 大规模轻松部署多框架 AI 模型。

端到端系统架构

NVIDIA Triton™ Inference Server 简化了生产中的大规模 AI 模型部署。Triton 是一款开源的推理服务软件,可助力团队从任何框架、本地存储或从任何基于 GPU 或 CPU 的基础架构、云、数据中心或边缘的 Google Cloud 平台或 AWS S3 中部署经过训练的 AI 模型。通过从  NVIDIA NGC  目录中拉取容器开始使用 Triton,该目录是经 GPU 优化的深度学习和机器学习软件中心,可加速向开发工作流程的部署。

Triton Inference Server 的优势

多框架 支持

Triton Inference Server 支持 TensorFlow、NVIDIA® TensorRT™、PyTorch、ONNX Runtime 等所有主流框架,同时支持定制后端框架。 同时,可助力 AI 研究人员和数据科学家针对其项目自由选择合适的框架。

高性能 推理

此软件通过在 GPU 上并行运行模型尽可能提高利用率,支持基于 CPU 的推理,并提供模型集成和流式推理等高级功能。 同时,可帮助开发者快速将模型投入生产。

专为 DevOps 和 MLOps 设计

作为一种 Docker 容器,该软件通过集成 Kubernetes 实现编配和扩展(这也是 Kubeflow 的一部分),并导出 Prometheus 指标以供监视。 同时,可帮助 IT 和 DevOps 简化生产中的模型部署。

The Inference Pipeline

简化模型部署

NVIDIA Triton Inference Server 可简化生产中 AI 深度学习模型在 GPU 或 CPU 上的大规模部署。 其支持所有主流框架,可并行运行多个模型以提高吞吐量和利用率,并通过与 DevOps 工具集成简化生产过程,实现轻松部署。

通过整合这些功能,可帮助数据科学家、开发者和 IT 运营商联手加速 AI 开发和生产部署。

专为可扩展性设计

NVIDIA Triton Inference Server 借助基于微服务的推理提供数据中心和云端的可扩展性。 其可作为容器微服务进行部署,以在 GPU 和 CPU 上为预处理或后处理以及深度学习模型提供服务。 每个 Triton 实例均可在类似于 Kubernetes 的环境中独立扩展,以实现出色性能。 只需一条 NGC Helm 命令,即可在 Kubernetes 中部署 Triton。

Triton 可用于在云、本地数据中心或边缘部署模型。

The Inference Pipeline

在 NGC 上开始使用 NVIDIA Triton Inference Server。