探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列参考工作流。
工作负载
计算机视觉/视频分析
行业
零售/快速消费品
制造业
智慧城市/空间
医疗健康和生命科学
业务目标
投资回报
创新
产品
NVIDIA Metropolis
NVIDIA AI Enterprise
传统的视频分析应用及其开发工作流通常建立在固定功能的有限模型之上,仅能检测和识别一组精选的预定义对象。借助生成式 AI 和基础模型,用户现可以用更少的模型构建应用,这些模型具有难以置信的复杂性、广泛的感知能力和丰富的上下文理解能力。这种新一代的视觉语言模型 (VLM) 正在让强大的智能视频分析 AI 智能体体成为可能。
视频分析 AI 智能体可以结合视觉和语言模式来理解自然语言提示并执行视觉问答。例如,用自然语言回答各种问题,并将回答应用于录制或实时视频流。更深入地理解视频内容,可以实现更准确和有意义的解读,改善视频分析应用的功能和真实场景的解读。智能体前景广阔,将开启全新的工业应用可能性。
我们将在工厂、仓库、零售店、机场、交通路口等地部署高感知、高精度和高交互性的视频分析 AI 智能体。这将对运营团队产生巨大影响,他们希望利用自然交互产生的更丰富的见解来做出更好的决策。管理人员和运营团队将使用自然语言与智能体进行沟通,这些智能体将由生成式 AI 和大视觉语言模型提供支持,其核心是 NVIDIA NIM™ 微服务。
探索技术运用。
快速链接
探索由多个视觉语言模型提供支持的参考工作流,轻松构建您的视频分析 AI 智能体。