合成数据的生成方式多种多样,具体取决于使用案例。
使用模拟方法
如果您正在为仓库机器人训练计算机视觉 AI 模型,那么你需要创建一个包含叉车和货架等物体的物理精确的虚拟场景。或者,您也可以为装配线上的视觉检查训练 AI 模型,这时你需要创建一个包含传送带和正在生产的产品等物品的虚拟场景。
开发合成数据工作流的主要挑战之一是消除仿真与现实之间的差异。域随机化通过让您控制场景的各个方面(例如物体的位置、纹理和照明)弥补了这一差距。
NVIDIA Omniverse™ NVIDIA Omniverse™ Cloud Sensor RTX 微服务为您提供了一种无缝的方式来模拟传感器并生成带注释的合成数据。或者,您可以使用 Omniverse Replicator SDK 来开发自定义 SDG 工作流。
使用生成式 AI
生成模型可用于初始化和增强合成数据生成过程。文本到 3D 模型支持创建 3D 资产,以填充 3D 模拟场景。文本到图像生成式 AI 模型还可用于修改和增强现有图像,无论是从模拟生成的图像,还是在现实世界中收集,并通过程序化的填充技术来完善或扩展的图像。
Evian 2 405B 和 Nemotron-4 340B 等文本到文本生成 AI 模型可用于生成合成数据,为医疗健康、金融、网络安全、零售和电信行业构建强大的 LLM。
Evian 2 405B 和 Nemotron-4 340B 提供开源许可,允许开发者在其学术和商业应用中拥有和使用所生成数据的权利。