NVIDIA-Certified Professional

AI Operations

(NCP-AIO)

关于认证

NCP-AI Operations 认证是一个中级证书,用于验证考试者对 NVIDIA AI 基础设施进行监控、故障排除和优化的能力。该考试为在线远程监考形式,包含 50 道题目,时限为 90 分钟。

请在预约考试之前仔细阅读考试规则

如有任何疑问,请发邮件至 dlichina@nvidia.com

考试概况

考试时长:90 分钟

考试费用:2880 元

认证等级:Professional

认证主题:AI Operations

题目数量:50 道选择题

预备知识:两到三年使用 NVIDIA 硬件解决方案运营数据中心的工作经验。能够部署数据中心基础设施的各种组件以支持 AI 工作负载。

考试语言:英文

认证有效期:认证自颁发之日起两年内有效。可以通过重新参加考试保持认证资质。

NVIDIA 认证证书:通过考试后,您将获得数字徽章和电子证书(其中包含认证主题和级别,并可在线验证核实),并将被收录于 NVIDIA 认证名录中。

选择考试

考试涵盖主题

  • 用于配置、管理和故障排除的 Base Command Manager
  • Slurm 集群管理
  • Kubernetes 集群管理
  • 用于故障排除和性能优化的系统管理工具

适用人群

  • MLOps 工程师
  • DevOps 工程师
  • 解决方案架构师
  • 系统架构师
  • AI 基础设施工程师

培训推荐 (可选)

AI 基础架构和运营基础

在线自主培训课程,涵盖 AI 基础设施的基本组件,包括计算平台、网络和存储解决方案。该课程还涉及 AI 运营,侧重于基础设施管理和集群编排。

AI 基础设施专业人员培训

多天在线培训,涵盖数据中心 AI 基础设施的基本因素,重点介绍 NVIDIA 的前沿技术。

即将推出

考试相关培训

根据考试涵盖的各项技术,您可以选择学习相关的 NVIDIA 培训课程,以更加充分地准备考试。

认证主题 考试权重 涵盖的技术
管理 36%
  • 管理 Fleet Command
  • 管理 Slurm 集群
  • 了解 AI 工作负载的数据中心架构
  • 管理 Base Command Manager (BCM) 和集群配置
  • 管理 Run.ai(可能是 ACM 的一部分)
  • 配置 MIG(适用于 AI 和 HPC)
工作负载管理 16%
  • 管理 Kubernetes 集群
  • 使用系统管理工具排查问题
安装和部署 26%
  • 安装和配置 BCM
  • 使用 BCM 在 NVIDIA 主机上安装和初始化 Kubernetes
  • 从 NGC 部署容器
  • 部署云 VMI 容器
  • 了解 AI 数据中心的存储需求
  • 在 DPU Arm 上部署 DOCA 服务
故障排查和优化 20%
  • 排查 Docker 故障
  • 排查 NVIDIA NVlink™/NVswitch™ 系统的 Fabric Manager 服务故障
  • 排查 BCM 故障
  • 排查 Magnum IO 组件故障
  • 排查存储性能问题

联系我们

NVIDIA 提供培训和 AI 专业认证,助力专业人士提升在生成式 AI 与大语言模型、深度学习、加速计算、数据科学、图形与仿真等领域的技能和知识。

咨询 NVIDIA 培训和认证,请将需求详情发邮件至 dlichina@nvidia.com。

订阅 NVIDIA 培训最新消息

获取 NVIDIA 培训新闻、公告等,包括有关新自主培训课程、讲师指导的培训班、免费培训、折扣等的最新信息。您可以随时取消订阅。