合成数据

合成数据是人工生成的数据,在机器人、自动驾驶汽车等众多领域用于加速 AI 模型的训练。

什么是合成数据生成 (SDG)?

合成数据生成是基于计算机仿真、生成式 AI 模型或两者的组合,在视觉和非视觉频谱中创建文本、2D 或 3D 图像的流程。这种技术既适用于结构化数据,也适用非结构化数据,而且经常被应用于原始数据稀缺、敏感或收集难度大的领域。

合成数据生成的工作原理

构建准确且性能卓越的人工智能模型依赖于经过仔细标记的高质量、多样化数据集。然而,现实世界的数据通常是有限的,不能充分代表所需的样本,或因数据保护标准限制而难以获取。由于存在上述限制,原始数据的获取和标记是一个耗时且成本高昂的流程,可能会延缓 AI 开发的进展。

而合成数据通过基于规则、算法或模拟现实数据统计学属性的仿真来创建人工生成的数据的方法解决这些挑战。开发者和研究人员可以使用这样的合成数据对模型进行鲁棒测试和训练,不受实际数据使用相关限制或隐私相关顾虑的影响。

合成数据为何对 AI 具有重要意义?

合成数据生成可解决数据科学面临的核心挑战,改善机器学习 (ML) 模型的训练,并简化 AI 开发。

  • 数据不全:合成数据能够解决新型用例中真实数据稀缺的问题。这对于提高模型的性能和鲁棒性而言至关重要,特别是现实世界数据有限的利基应用。
  • 数据隐私:通过生成模拟现实世界统计数据,而非与个别记录直接对应的训练数据,合成数据避免了隐私问题。这一匿名化在医疗健康和金融服务等领域至关重要,因为这些领域的数据隐私和数据使用受到法规的严格监管控制。
  • 数据质量:真实数据集可能不平衡,这或导致生成模型和 ML 模型中存在输出偏差。而合成生成数据则可将现有数据增强为规模更大、更具代表性的数据集。这有助于最大限度地减少模型偏差,提高准确性。
  • 测试:合成测试数据支持在安全环境中为 AI 软件测试和评估进行真实模拟,再将其部署到真实场景中。

生成式 AI 在合成数据生成中的作用是什么?

基于现实世界数据的虚拟场景包含增强数据和全新的数字资产。

生成式模型可用于创建这两种类型的资产。

扩散模型能够基于文本或图像描述生成高质量的视觉内容。通过学习图像与用于描述它们的文本之间的关系,扩散模型可以用于以编程方式改变图像参数,如布局、资产放置、颜色、对象大小和光照条件等。

支持合成数据生成的神经网络架构包括生成式对抗网络 (GAN) 和变分自编码器 (VAE)。GAN 通过两个神经网络之间的竞争性流程生成数据,其中一个神经网络负责生成数据样本,另一个则对照真实数据对其进行评估。

Transformer 是一种深度学习模型,它也能够生成合成数据。通过学习数据集中的复杂模式和依赖关系,Transformer 能够生成与现有训练数据相对应的全新数据。例如,在自然语言处理中,Transformer 可用于创建新文本内容,模拟给定文本风格和背景。Transformer 可以模拟表格数据,方法是将数据集中的每一行和每一列视为一个序列,学习其中的关系和模式,并生成保持原始数据集特征的新数据。

从资产创建到代码生成,生成式 AI 能够帮助人们创建合成数据集,用于增强适用于不同场景的模型的训练数据集。

基于仿真的合成数据用例

合成数据正为 AI 在各领域和用例中提供支持。

机器人

对于应用于仓库、配送中心和其他工业空间的自主移动机器人 (AMR) 而言,合成数据在训练为其提供支持的生成式物理 AI 模型方面具有至关重要的意义。合成数据生成可用于基于 3D 仿真创建数据并进行标记,强化训练数据集,以确保机器人能够精准检测物体、避开障碍物,并与所处环境安全交互。使用合成数据增强的虚拟训练有助于精进机器人的感知和决策制定能力,并大大减少进行现实世界测试所需的时间和资源。

自主驾驶汽车

在汽车行业,需要使用合成数据来训练为自动驾驶汽车提供支持的感知、规划和预测模型。为了将每一个可能的交通场景纳入考量而手动收集和标记大量数据不仅成本昂贵且耗时费力,因此可以利用深度学习方法生成的数据来增强从激光雷达、摄像头和雷达等传感器中收集的数据。借助更丰富的数据集,开发者可以对车用 AI 进行优化和验证。

工业检测

适用于固定摄像头的计算机视觉算法能够对物体进行检测、分类和追踪,从而有助于提高公共空间或工业区域的安全性,为店内的自动结账提供支持,并对装配线上的产品缺陷进行提示。但是,要训练精准的计算机视觉和自动光学检测算法,收集规模巨大且多样化的图像数据集是一项巨大的挑战。借助合成图像数据,开发者可以通过改变参数 (如场景角度、位置、照明等) 快速创建丰富多样的训练数据集。这样一来,开发者就能够针对各种各样的用例简化开发检测算法。

基于文本的合成数据用例

合成数据正为 AI 在各领域和用例中提供支持。

文本生成

合成文本生成的应用十分广泛,从训练网络安全模型到识别网络钓鱼电子邮件,再到生成保护隐私的医疗记录。例如,在医疗行业,数据往往被分散保存在孤岛中,隐私受到保护,这使得依赖访问高质量数据的技术创新难以开展。为了克服这一障碍,可以利用 AI 生成合成医疗数据集,在准确捕获真实医疗记录的统计属性的同时,保护敏感数据的隐私。这些数据集的使用不受限制,从而为适用于各种用例的医疗软件开发提供了机会。

在上述所有用例中,开发者均可受益于构建合成数据库,将其用于存储、组织带标注的数据,并对其进行编目,用于未来的模型培训和 AI 项目。

合成数据生成入门指南

基于仿真

NVIDIA 提供了一整套技术,助力开发者针对各行各业的用例构建合成数据生成工作流。

NVIDIA Omniverse™ 平台提供 API、SDK 和服务,支持开发者将基于 Universal Scene Description (OpenUSD) 和 Omniverse Cloud Sensor RTX 构建或集成到现有的软件工具和仿真工作流中,以通过创建逼真模拟所需的高级光线跟踪功能生成合成数据。

OpenUSD 是一种开源文件格式和可扩展框架,可作为通用语言管理 NVIDIA Omniverse 上的各种软件应用和复杂 3D 场景及工作流。

NVIDIA Omniverse Replicator 是 Omniverse 平台的核心扩展,可供开发者通过编程生成带标注的合成数据,以加速用于机器人、自动驾驶车辆、零售环境等用例的 AI 模型的感知训练。

借助这些工具,开发者可以创建高质量的合成数据集,为新一代 AI 解决方案提供支持。

基于文本

对于基于文本的合成数据生成而言,NVIDIA Nemotron-4 340B 提供了一系列模型,可供开发者用于生成训练 LLM 所需的合成数据。这些经 NVIDIA NeMo 训练并经 NVIDIA TensorRT-LLM 优化的模型,根据独特的开放式模型许可证提供。

NVIDIA API 目录中提供 Nemotron-4 340B 的体验和下载选项。开发者可以使用 DGX Cloud 对 AI 模型轻松调优。有关更多详细信息,请参阅数据集模型研究论文

后续步骤

如何使用 OpenUSD 构建生成式 AI 驱动的合成数据工作流

了解如何使用适用于 USD 开发的 NVIDIA NIM 微服务NVIDIA Omniverse Replicator 构建自定义合成数据生成 (SDG) 工作流。

借助合成数据来应对自动驾驶汽车感知的新挑战

了解 NVIDIA DRIVE Sim 中的合成数据集如何提高和恢复自动驾驶汽车技术的感知准确性。