合成数据生成

加速您的 AI 工作流程。

工作负载

计算机视觉/视频分析

行业

制造业
硬件 / 半导体
汽车 / 交通运输
智慧城市 / 空间
机器人

业务目标

创新

产品

NVIDIA Omniverse Enterprise
NVIDIA DRIVE
NVIDIA Isaac
NVIDIA Metropolis

合成数据是什么?

在训练任何 AI 模型时,都需要用到经过仔细标记、内容多样的数据集。这些数据集通常包含数千乃至数千万个元素,其中一些数据会超出可见范围。在现实世界中,收集和标记这些数据不仅费时,而且成本高昂。这可能会阻碍 AI 模型的开发,并导致需要更多时间才能找到解决方案。

合成数据是利用计算机仿真技术生成的,包含 2D 图像或文本,可与实际数据一起用于训练面向计算机视觉工作流的 AI 模型。利用合成数据生成 (SDG) 技术可以大幅节省训练时间和训练成本。

Synthetic data

为什么要使用合成数据?

强效助力 AI 模型训练

弥补数据差异加速 AI 模型开发,同时降低获取和标记文本、视觉和物理 AI 模型所需数据的总体成本。

保护隐私和安全

通过生成内容多样的合成数据集来模拟现实世界,解决隐私问题并减少偏差。

准确

通过在训练时使用包含罕见但重要的极端案例的数据(通常不可能收集到),创建高度准确的通用 AI 模型。

可扩展

使用自动化工作流数据以程序化方式生成数据,这些数据可根据您在制造业、汽车业、机器人业等领域的用例进行扩展。

生成合成数据

合成数据的生成方式多种多样,具体取决于使用案例。  

使用模拟方法  

如果您正在为仓库机器人训练计算机视觉 AI 模型,那么你需要创建一个包含叉车和货架等物体的物理精确的虚拟场景。或者,您也可以为装配线上的视觉检查训练 AI 模型,这时你需要创建一个包含传送带和正在生产的产品等物品的虚拟场景。

开发合成数据工作流的主要挑战之一是消除仿真与现实之间的差异。域随机化通过让您控制场景的各个方面(例如物体的位置、纹理和照明)弥补了这一差距。

NVIDIA Omniverse™ NVIDIA Omniverse™ Cloud Sensor RTX 微服务为您提供了一种无缝的方式来模拟传感器并生成带注释的合成数据。或者,您可以使用 Omniverse Replicator SDK 来开发自定义 SDG 工作流。

使用生成式 AI

生成模型可用于初始化和增强合成数据生成过程。文本到 3D 模型支持创建 3D 资产,以填充 3D 模拟场景。文本到图像生成式 AI 模型还可用于修改和增强现有图像,无论是从模拟生成的图像,还是在现实世界中收集,并通过程序化的填充技术来完善或扩展的图像。

Evian 2 405B 和 Nemotron-4 340B 等文本到文本生成 AI 模型可用于生成合成数据,为医疗健康、金融、网络安全、零售和电信行业构建强大的 LLM。

Evian 2 405B 和 Nemotron-4 340B 提供开源许可,允许开发者在其学术和商业应用中拥有和使用所生成数据的权利。

机器人仿真

在机器人领域,合成数据可用于训练用于机器人感知、抓取或用于视觉检测的机器人的 AI 模型。

快速链接

图片由 Techman Robot 提供

工业检测

检测制造零件中的缺陷是一项极其困难的工作,因为异常现象通常都不易被发现。通过创建基于划痕、缺口或凹痕等实际缺陷的合成数据,可以训练 AI 模型在制造流程的早期阶段发现缺陷。

Image courtesy of Delta Electronics

快速链接

图片由 Edge Impulse 提供

自动驾驶汽车

要部署自动驾驶汽车并使其能够安全地四处行驶,就必须准备大量的训练数据,这不仅成本高昂,而且在现实生活中获取这些数据非常危险。不过,可以在仿真环境中利用 3D 合成数据来开发和测试自动驾驶汽车解决方案,从而减少测试和训练时间,并降低成本。

金融

合成数据可实现复杂的风险建模和欺诈检测,同时保护敏感的金融信息。这种方法对于开发用于风险评估、算法交易和客户支持的高级 AI 模型至关重要。

检索增强生成技术 (RAG)

各行各业的组织都在采用生成式 AI 来改善客户体验并提高运营效率。为确保模型提供最新且切合实际的回答,在人工智能工作流中实施了检索增强生成(RAG)流程。合成数据生成可以帮助企业评估其RAG实施的质量。

合成数据合作伙伴生态系统

了解我们的生态系统如何在 NVIDIA 技术的基础上开发自己的合成数据应用和服务。

合成数据公司

服务交付合作伙伴

开始使用

利用 Omniverse Cloud APIs or SDK,针对机器人仿真、工业检测和自动驾驶汽车用例构建您自己的合成数据生成工作流。

资源

合成数据训练

在这个在线自主培训的课程中,您将学习如何生成合成数据,以便用于训练计算机视觉模型。

合成数据文档

参阅 Omniverse Replicator 文档,了解如何生成合成数据。

合成数据生成 LLM 训练

了解 Llama 3.1 405BNemotron-4 340B 开源模型,开发者可以使用这些模型生成合成数据,以训练适用于商业应用的大语言模型 (LLM)。

合成数据生成播放列表

观看有关合成数据生成的 NVIDIA GTC 会议,了解详情。