生成式 AI 赋能的视频分析 AI 智能体

探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列参考工作流。

工作负载

计算机视觉/视频分析

行业

零售/快速消费品
制造业
智慧城市/空间
医疗健康和生命科学

业务目标

投资回报
创新

产品

NVIDIA Metropolis
NVIDIA AI Enterprise

概述
技术运用
常见问题解答

赋能新一轮应用

传统的视频分析应用及其开发工作流通常建立在固定功能的有限模型之上，仅能检测和识别一组精选的预定义对象。借助生成式 AI 和基础模型，用户现可以用更少的模型构建应用，这些模型具有难以置信的复杂性、广泛的感知能力和丰富的上下文理解能力。这种新一代的视觉语言模型 (VLM) 正在让强大的智能视频分析 AI 智能体体成为可能。

什么是视频分析 AI 智能体？

视频分析 AI 智能体可以结合视觉和语言模式来理解自然语言提示并执行视觉问答。例如，用自然语言回答各种问题，并将回答应用于录制或实时视频流。更深入地理解视频内容，可以实现更准确和有意义的解读，改善视频分析应用的功能和真实场景的解读。智能体前景广阔，将开启全新的工业应用可能性。

简化每一项工业操作

我们将在工厂、仓库、零售店、机场、交通路口等地部署高感知、高精度和高交互性的视频分析 AI 智能体。这将对运营团队产生巨大影响，他们希望利用自然交互产生的更丰富的见解来做出更好的决策。管理人员和运营团队将使用自然语言与智能体进行沟通，这些智能体将由生成式 AI 和大视觉语言模型提供支持，其核心是 NVIDIA NIM™ 微服务。

探索技术运用。

快速链接

阅读博客：NVIDIA 推出可分析视频的 AI 智能体蓝图

阅读博客：任何行业现在都能搜索和汇总大量视觉数据

阅读博客： AI 走向物理化：全新 NVIDIA NIM 微服务将生成式 AI 引入数字环境

GTC 论坛：通过视觉 AI 智能体来利用生成式 AI 和大语言模型

面向开发者的 NVIDIA NIM

NVIDIA NIM 是一组推理微服务，包括行业标准 API、特定领域代码、优化的推理引擎和企业运行时间。提供多个 VLM 用于构建视频 AI 智能体，可以处理实时或存档的视频，以使用自然语言提取可行见解。我们创建了一个视频分析 AI 智能体的参考工作流，用户可以尝试使用该工作流加速开发过程。

快速链接

尝试视频分析 AI 智能体参考工作流

阅读基于 NVIDIA NIM 的多模态视觉 AI 智能体构建解决方案的博客

用于搜索和汇总视频的 NVIDIA AI Blueprint

NVIDIA AI Blueprint for Video Search and Summarization

用于搜索和汇总视频的 NVIDIA AI Blueprint 可帮助您构建视频分析 AI 智能体，以便工业运营专业人员通过搜索和汇总实时的或归档的视频传感器数据，与其基础设施进行通信。它集成了视觉语言模型 (VLM) 例如 NVIDIA Cosmos Nemotron VLMs、大语言模型 (LLM) 例如 NVIDIA Llama Nemotron LLMs，以及 NVIDIA NIM，以实现全新的协作水平。

申请参与抢先体验

快速链接

抢先体验用于搜索和汇总视频的 NVIDIA AI Blueprint

阅读关于 NVIDIA AI Blueprint 公告的博客

阅读博客：构建视频搜索和摘要代理

阅读关于构建智能体视频工作流的博客

使用 Jetson 平台服务在边缘构建智能体

开发者可以构建由 NVIDIA Jetson™ 边缘 AI 平台提供支持的视频分析 AI 智能体，主要是利用 NVIDIA JetPack™的新功能—Jetson 平台服务。生成式 AI 应用完全在 NVIDIA Jetson Orin™ 设备上运行，能检测活动，以生成警报并促进交互式问答会话。

探索常见问题。

快速链接

下载 Jetson™ 参考工作流

技术博客：为边缘开发基于生成式 AI 的视频分析 AI 智能体

NVIDIA NIM™ 是 NVIDIA AI Enterprise 的一部分，是一套易于使用的预构建容器工具，目的是帮助企业客户在云、，数据中心和工作站上安全、，可靠地的部署高性能的 AI 模型推理。它支持各种 AI 模型，包括开源社区模型和 NVIDIA AI 模型，可确保利用行业标准 API 在本地或云端进行无缝、可扩展的 AI 推理。可在 www.nvidia.cn/ai 上详细了解 NVIDIA NIM。