构建由视觉语言模型提供支持的视觉 AI 智能体
NVIDIA VIA 是一系列工作流程的集合,用于构建能够使用视觉语言模型 (VLM) 处理大量实时或存档视频和图像的 AI 智能体。既可以部署在边缘,也可以部署在云端。新一代视觉 AI 智能体能够帮助几乎各个行业利用自然语言生成视频摘要、搜索视频中的内容以及从视频中提取切实可行的见解。
利用 NVIDIA NeMo 和 NVIDIA TAO 通过领域适应性来提高模型准确性,或者使用 NVIDIA NIM 无缝更新到最新的先进模型。
就使用自然语言生成丰富的视频摘要而言,处理速度比输入视频速度快 100 倍以上。
体验由生成式 AI 提供支持的多模态互动,并利用标准 API 轻松地与业务系统集成。
无论是长视频还是图像,均能使用自然语言从中获取关于细微活动的丰富摘要。
构建具有丰富互动功能的智能体。提出详细问题,甚至是提出“向我展示”类型的请求,以便查找某些类型的活动的特定剪辑,例如精彩片段或独特活动。
探索 AI 智能体在视频摘要和搜索方面的强大功能。
了解如何通过视觉 AI 智能体利用生成式 AI 和大语言模型。