检索增强生成(RAG)工作流正在革新企业运营。然而,大多数现有教程仅停留在概念验证阶段,无法扩展。本课程旨在弥合这一差距,重点关注构建可扩展、生产就绪的RAG工作流,由 NVIDIA NIM 和 Kubernetes 提供支持。学员将获得使用 NIM Operator 部署、监控和扩展 RAG 工作流的实践经验,并学习基础设施优化、性能监控和处理高流量的最佳实践。
本课程首先使用 NVIDIA API 目录构建一个简单的 RAG 管道。参与者将使用 Docker Compose 在本地环境中部署和测试各个组件。熟悉基础知识后,重点将转向使用 NIM Operator 在 Kubernetes 集群中部署 NIM,如 LLM、NeMo Retriever 文本嵌入和 NeMo Retriever 文本重排序。这将包括管理 NIM 的部署、监控和可扩展性。基于这些部署,课程将涵盖使用已部署的 NIM 构建生产级 RAG 工作流,并探索 NVIDIA 的 PDF 提取蓝图(blueprint),学习如何将其集成到 RAG 工作流中。
为确保线上效率,课程将介绍 Prometheus 和 Grafana,用于监控工作流性能、集群健康状况和资源利用率。可扩展性将通过使用 Kubernetes 水平 Pod 自动缩放器(HPA)结合 NIM Operator,基于自定义指标动态扩展 NIM 来解决。将创建自定义仪表板以可视化关键指标并解释有关性能的洞察。
学习目标
- 使用 API 入口构建简单的 RAG 工作流,并使用 Docker Compose 在本地部署
- 使用 NIM Operator 在 Kubernetes 集群中部署各种 NIM 微服务
- 将 NIM 组合成一个完整的生产级 RAG 工作流,并集成高级数据提取工作流
- 使用 NIM Operator 扩展 NIM 以处理流量高峰
- 为各种智能体工作流(包括PDF提取)创建、部署和扩展 RAG 工作流
课程大纲待更新