世界基础模型

世界基础模型是能够对现实世界环境进行仿真，并基于文本、图像或视频输入准确预测结果的神经网络。依靠世界基础模型，机器人和自动驾驶车辆 (AV) 等物理 AI 系统能够加速训练和测试。

什么是世界模型?

世界模型是理解现实世界动态 (包括其物理和空间属性) 的生成式 AI 模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习，它们能够理解现实世界环境的物理特性，从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。

生成式基础模型

基础模型是基于大量无标记数据集训练而成，能够完成各种任务的 AI 神经网络。由于具有通用性，它们可以大大加速各类生成式 AI 应用的开发。通过使用特定数据集对基础模型进行调优，开发者能够比以往更快地定制和迭代生成式AI应用程序。

借助世界基础模型，开发者可以运用基础模型的力量，为下游应用或特定域 (如工厂车间、仓库或高速公路) 构建世界模型。这对于开发物理 AI 系统具有重要意义，因为这些系统需要学习兼具视觉、空间和物理精准性的数据。

现实世界中有哪些世界基础模型应用？

将世界模型用作虚拟环境，可安全地简化和扩展自主机器的训练规模。开发者可借助生成、治理和编码视频数据的能力，更有效地训练自主机器感知、理解动态环境并与之进行交互。

自动驾驶车辆/汽车

世界基础模型能够显著提升自动驾驶汽车 (AV) 工作流的每一个阶段。借助预先标记、编码的视频数据，开发者能够轻松地整理数据，并更精准地训练 AV 系统，使其理解周围车辆、行人和物体的意图。世界模型还可以生成包含行人、交通和路况的新场景，填补训练中缺失的数据，或扩大测试规模以纳入新位置。

机器人技术

世界基础模型可通过为机器人提供用于学习的仿真虚拟环境，帮助其建立空间智能。这些模型利用仿真环境提高数据效率实现快速迭代，并可同步进行多个训练流程。这不仅能加快机器人的学习曲线，在受控环境中进行探索也有助于确保安全。

通过整合各种输入模态，世界基础模型能够改善泛化和适应能力，为迁移学习提供支持，并可根据环境变化作出调适。得益于此，机器人能够对广阔的空间进行高级规划、模拟与物体的交互，并对人类行为做出预测，从而具备了执行复杂任务的能力。此外，世界模型还可通过仿真场景和演员-评论家方法优化策略学习。

世界基础模型有哪些优势？

为物理 AI 系统（如自动驾驶汽车）建立世界模型需要耗费大量资源和时间。首先，收集在全球不同地形和条件下的现实世界驾驶数据集需要 PB 级数据、时间和数百万小时的仿真素材。其次，对这些数据的筛选和准备需要耗费数千小时的人力。最后，大模型的训练在 GPU 计算方面将耗资数百万美元，而且需要动用大量 GPU。

世界基础模型旨在捕捉世界的底层结构和动态，从而为更复杂的推理和规划功能提供支持。使用经过治理的海量高质量现实世界数据进行训练，这些神经网络可作为物理 AI 系统强大的物理模拟器和合成数据生成器。

借助世界基础模型，开发者能够将生成式 AI 的应用延伸至 2D 软件之外，并以物理 AI 的形式将其功能带入现实世界。虽然传统上看，AI 的作用主要体现在数字化领域，但世界模型能够在有形的现实世界体验中释放 AI 的力量。

逼真视频生成

世界模型通过理解物体移动和交互方式的底层原理，可创造出更逼真且物理上更准确的视觉内容。这些模型具有按需生成逼真 3D 世界的潜能，可应用于众多领域，包括电子游戏和交互体验。在某些情况下，高度精准的世界模型的输出结果可以呈现为合成数据的形式，而这些合成数据可被用于训练感知AI。

目前的 AI 视频生成可能还无法应对复杂场景，对因果关系的理解能力也有限。但世界模型却在视觉应用场景中表现出更深入理解因果关系的潜力，例如模拟画家在画布上留下笔触。

增强的泛化和决策制定能力

世界模型使物理AI系统能够通过测试各种行为并接收反馈来学习并适应不同的环境。通过学习训练数据，智能体可以降低对现实世界交互的需要，从而提高样本效率。这使智能体能够通过模拟潜在结果“想象”和规划未来的行动，从而做出更明智的决策。此外，理解环境的动态有助于智能体针对新情况进行泛化，并更有效地展开探索，因为即便在现实世界执行数据缺失的情况下，它们也有能力对潜在的行动序列做出评估。

大语言模型 (LLM) 与世界模型的集成可实现语义理解，使系统具备解读和生成像人类一样的语言的能力以及其他多模态能力，从而得以与环境进行更全面的交互。

策略学习能力大幅提升

策略学习是一个通过探索策略，找到最佳行动的过程。策略模型能够帮助系统 (如机器人) 根据其当前状态和更广泛的世界状态来决定采取的最佳行动。它会将系统状态 (例如位置) 与行为 (例如运动) 联系起来，以达到实现目标或提高性能的目的。策略模型可以通过对模型的调优衍生得出。策略模型通常被用于强化学习，即通过交互和反馈来学习。

预见能力

世界模型支持先进的预测智能，使系统具备预测未来情景并做出数据驱动型决策的能力。利用预见式生成能力——即基于历史数据和情境输入产生预测性仿真，这些模型使 AI 系统能够识别最优策略。这种能力可以提高效率、适应性和安全性，对于应对各行各业不断变化且高度复杂的环境而言，具有宝贵的价值。

优化效率和可行性

世界基础模型中的代价模型有助于评估不同行动或策略的效率和可行性。通过模拟各种场景，这些模型可以对与不同决策相关的成本（如能耗、时间或资源）进行预测。上述信息对于优化运营以及在现实应用中做出经济高效的选择而言，具有极高的价值。

如何构建世界模型？

世界模型需要大量现实世界数据，特别是视频和图像，以便学习 3D 环境中不断变化的行为。含有数十亿个参数的神经网络会对这些数据进行分析，创建和更新环境的隐藏状态或内部表示。这赋予机器人理解和预测变化的能力，例如感知视频中的运动和深度、预测隐藏物体，并为应对可能发生的事件做好准备。得益于深度学习对隐藏状态的持续改进，世界模型对于新场景具有适应能力。

以下是构建世界模型的一些关键组成部分：

数据治理

数据治理是世界模型预训练和持续训练的关键一环，尤其是在使用大规模多模态数据时。它涉及图像或视频数据的筛选、注释、分类和去重等步骤，旨在确保对高精度模型进行训练或调优时的高质量。

在视频处理流程中，数据治理的第一步是将视频分割和转码成较小的片段，然后进行质量筛选以保留高质量数据。通过先进视觉语言模型对关键物体或操作进行注释，同时借助视频嵌入进行语义级去重，去除冗余数据。

然后对数据进行组织和清理，为训练做准备。在整个流程中，都要通过高效的数据编排确保数据在 GPU 之间顺畅传输，以便实现对大规模数据的处理和高吞吐量。

分词

分词 (Tokenization) 是指将高维视觉数据转换为被称作“词元” (token) 的较小单位，为机器学习处理提供便利。分词器会将图像和视频中的像素冗余转换为紧凑的语义级词元，从而更高效地对大规模生成模型进行训练并对有限资源进行推理。主要方法有两种：

离散分词：将图像和视频表示为整数。
连续分词：将图像和视频表示为连续向量。

这种方法能够提高模型学习的速度和性能。

世界基础模型的调优

基础模型是使用大量无标记数据集训练而成，能够执行各种生成任务的 AI 神经网络。开发者既可以从零开始训练模型架构，也可以使用额外数据针对下游任务对预训练的基础模型进行调优。

世界基础模型起到通用 AI 系统的作用，通过使用大量模拟现实世界环境的可视化数据集训练而成。它们采用两种架构：

扩散模型：从随机噪声开始，经过逐步完善生成高质量视频。这种模型在视频生成和风格转换等任务中表现出色。
自回归模型：具有逐帧生成视频的能力，能够根据上一帧视频预测出下一帧。它非常适合预测未来帧或补全视频序列。

依靠调优框架，这些通用模型可以针对下游任务进行专业化训练，精准应用于机器人、自主系统和其他物理 AI 领域

借助训练框架（包括库、SDK 和用于数据准备、模型训练、优化以及性能评估和部署的工具），开发者可以轻松入门，并达到简化端到端开发过程的目的。

如何开始使用世界基础模型

NVIDIA Cosmos

NVIDIA Cosmos™ 平台汇集最先进的生成式世界基础模型、高级分词器、护栏，以及经加速的数据处理和管理工作流，旨在加快自动驾驶和机器人等物理 AI 系统的发展。

了解详情

Cosmos 世界基础模型

一系列专为生成物理 AI 开发所需的物理感知视频和世界状态而构建的预训练模型。

立即试用

NVIDIA Project GR00T

NVIDIA Project GR00T 是旨在加速类人型机器人开发的一项活跃的研究计划，集合了相关机器人基础模型、工作流和仿真工具。

了解详情