NVIDIA Visual Insight Agent (VIA) 工作流程

构建由视觉语言模型提供支持的视觉 AI 智能体

VIA 是什么?

NVIDIA VIA 是一系列工作流程的集合,用于构建能够使用视觉语言模型 (VLM) 处理大量实时或存档视频和图像的 AI 智能体。既可以部署在边缘,也可以部署在云端。新一代视觉 AI 智能体能够帮助几乎各个行业利用自然语言生成视频摘要、搜索视频中的内容以及从视频中提取切实可行的见解。

利用生成式 AI 使您的视觉应用实现华丽蜕变

利用最新模型

利用 NVIDIA NeMoNVIDIA TAO 通过领域适应性来提高模型准确性,或者使用 NVIDIA NIM 无缝更新到最新的先进模型。

构建 AI 智能体生成视频摘要和查找精彩片段

就使用自然语言生成丰富的视频摘要而言,处理速度比输入视频速度快 100 倍以上。

多模态互动

体验由生成式 AI 提供支持的多模态互动,并利用标准 API 轻松地与业务系统集成。

观看 VIA 实际应用演示

示例:仓储管理

无论是长视频还是图像,均能使用自然语言从中获取关于细微活动的丰富摘要。

示例:运动分析

构建具有丰富互动功能的智能体。提出详细问题,甚至是提出“向我展示”类型的请求,以便查找某些类型的活动的特定剪辑,例如精彩片段或独特活动。

入门资源

申请参与抢先体验

探索 AI 智能体在视频摘要和搜索方面的强大功能。

观看关于视觉 AI 智能体的 NVIDIA GTC 演讲

了解如何通过视觉 AI 智能体利用生成式 AI 和大语言模型。