什么是生成式 AI?

生成式 AI 使用户能够根据各种输入快速生成新内容。这些模型的输入和输出可以包括文本、图像、声音、动画、3D 模型或其他类型的数据。

生成式 AI 的工作原理是什么?

生成式 AI 模型使用神经网络来识别现有数据中的模式和结构,以生成新的原创内容。

生成式 AI 模型的一项突破是能够利用不同的学习方法 (包括无监督学习或半监督学习) 进行训练。这使得组织能够更轻松、更快速地利用大量未标记的数据来构建基础模型。顾名思义,基础模型可以用作 AI 系统的基础,执行多项任务。

基础模型的示例包括 GPT-3 和 Stable Distance,它们使用户能够充分利用语言的强大力量。例如,基于 GPT-3 的 ChatGPT 等热门应用使用户可以根据简短的文本请求生成一篇文章,而 Stable Diffusion 使用户可以根据文本输入生成逼真的图像。

如何评估生成式 AI 模型?

成功的生成式 AI 模型的三个关键要求是:

  1. 质量:拥有高质量的生成输出是关键,对直接与用户交互的应用来说尤为如此。例如,在语音生成中,质量差的语音会让人难以理解。同样,在图像生成中,人们期望的输出应该在视觉上与自然图像难以区分。
  2. 多样性:好的生成式模型能够在不影响生成质量的情况下捕捉到数据分布中的少数模式,有助于减少学习模型中的不良偏差。
  3. 速度:许多交互式应用需要快速生成,例如实时图像编辑,以便在内容创作工作流中使用。

图 1:成功的生成式 AI 模型的三个要求。

如何开发生成式 AI 模型?

生成式模型有多种类型,将每种模型的优势相结合,就能创建更强大的模型。

生成式模型的类型如下:

  • 扩散模型:扩散模型也称为去噪扩散概率模型 (DDPM),是一种在训练过程中通过一个两步过程确定潜在空间中向量的生成式模型。这两个步骤是正向扩散和反向扩散。正向扩散过程缓慢地向训练数据添加随机噪声,而反向过程则去除噪声,以重建数据样本。从完全随机噪声开始运行反向去噪过程,就可以生成新数据。

图 2:扩散和去噪过程。

与变分自编码器 (VAE) 模型相比,扩散模型可能需要更长的训练时间,但得益于这个两步过程,可以训练数百个层(只要不是无限数量),这意味着在构建生成式 AI 模型时,扩散模型通常会提供最高质量的输出。

此外,扩散模型也被归类为基础模型,因为它们规模庞大,输出质量高,灵活性强,被认为最适合通用用例。然而,由于存在反向采样过程,运行基础模型是一个缓慢且耗时的过程。

在这篇博客文章中详细了解扩散模型的数学原理

  • 变分自动编码器 (VAE):VAE 由两个神经网络组成,通常称为编码器和解码器。
    当接收到输入时,编码器将其转换为更小、更密集的数据表示方式。这种压缩表示方式保留了解码器重建原始输入数据所需的信息,同时丢弃了所有不相关的信息。编码器和解码器协同运行,学习高效简单的潜在数据表示方式。这使得用户能够轻松对新的潜在表示方式进行采样,并通过解码器映射生成新的数据。
    虽然 VAE 可以更快地生成图像等输出,但它们生成的图像不像扩散模型生成的图像那样拥有丰富的细节。
  • 生成式对抗网络 (GAN):GAN 发现于 2014 年,在扩散模型最近取得成功之前,GAN 被认为是这三种方法中最常用的方法。GAN 让两个神经网络相互对抗:一个是生成器,用于生成新的示例;另一个是鉴别器,用于学习区分生成内容是真实内容(来自域)还是虚假内容(生成的内容)。

这两个模型一起训练,随着生成器生成更好的内容、鉴别器更好地识别生成的内容,它们也变得更智能。这个过程不断重复,推动它们在每次迭代后持续改进,直到生成的内容与现有内容无法区分为止。

虽然 GAN 可以提供高质量的样本并快速生成输出,但样本多样性较弱,因此 GAN 更适合特定领域的数据生成。

生成式模型开发中的另一个因素是底层架构。最流行的架构之一是 Transformer 网络。了解它在生成式 AI 环境中的工作原理非常重要。

Transformer 网络:Transformer 与循环神经网络类似,用于以非序列方式处理顺序输入数据。

两种机制使 Transformer 特别适合基于文本的生成式 AI 应用:自注意力和位置编码。这两种技术都有助于表示时间,使算法能够专注于单词在长距离下的相互关系

图 3:图片来自 Aidan Gomez 的演讲,他是 2017 年提出 Transformer 概念的论文的八位合著者之一 (资料来源)。

自注意力层为输入的每个部分分配一个权重。权重表示该输入在上下文中相对于其余输入的重要性。位置编码是输入词出现顺序的表示方式。

一个 Transformer 由多个 Transformer 块 (也称为层) 组成。例如,Transformer 包含自注意力层、前馈层和归一化层,这些层全部协同运行来解密和预测标记化数据流,其中可能包括文本、蛋白质序列甚至图像块。

生成式 AI 有哪些应用?

生成式 AI 是能够简化创作者、工程师、研究人员、科学家等工作流的强大工具。其用例和可能性涵盖了各个行业和人群。

生成式 AI 模型可以接受文本、图像、音频、视频和代码等输入,生成上述任何形式的新内容。例如,它可以将文本输入转换为图像,将图像转换为歌曲,或将视频转换为文本。

图 4:该示意图展示了每个类别中可能的生成式 AI 用例。

最热门的生成式 AI 应用如下:

  • 语言:文本是许多生成式 AI 模型的根基,被认为是最高级的生成式 AI 领域。最热门的基于语言的生成式模型示例之一称为大语言模型 (LLM)。大语言模型正被用于多种任务,包括生成文章、开发代码、翻译甚至理解基因序列。
  • 音频:音乐、音频和语音也是生成式 AI 的新兴领域。示例包括能够根据文本输入创作歌曲和音频片段、识别视频中的物体并为不同的视频片段生成配音甚至创作自定义音乐的模型。
  • 视觉:图像是生成式 AI 最热门的应用之一。其中包括创建 3D 图像、虚拟形象、视频、图表和其他插图。可以灵活地生成具有不同美学风格的图像,并对生成的视觉效果进行编辑和修改。生成式 AI 模型可以创建图表来展示新的化合物和分子结构,为药物发现提供助力;为虚拟或增强现实创建逼真的图像,为视频游戏生成 3D 模型,设计标志,增强或编辑现有图像等。
  • 合成数据:当数据不存在、受到限制或根本无法以最高准确性处理极端情况时,合成数据对于训练 AI 模型极为有用。通过生成式模型开发合成数据可能是克服许多企业数据挑战的最具影响力的解决方案之一。它涵盖各种模态和用例,通过一种名为标签高效学习的过程得以实现。生成式 AI 模型可以自动生成额外的增强训练数据,或学习数据的内部表示方式,以更少的标记数据训练 AI 模型,从而降低标记成本。

生成式模型的影响广泛,其应用也在不断增加。下面仅列举生成式 AI 如何帮助推动和改变交通运输、自然科学和娱乐领域的几个例子。

  • 汽车行业,生成式 AI 有望帮助构建用于仿真和汽车开发的 3D 世界和模型。合成数据也被用于训练自动驾驶车辆。能够在逼真的 3D 世界中对自动驾驶车辆的能力进行道路测试,提高了安全性、效率和灵活性,同时降低了风险和开销。
  • 生成式 AI 为自然科学领域带来了极大的益处。在医疗保健行业,生成式模型可以通过开发新的蛋白质序列为医学研究提供帮助,从而为药物发现提供助力。病历书写、医疗编码、医疗影像和基因组分析等任务的自动化也可以让从业者受益。同时,在气象行业,生成式模型可用于创建地球模拟,有助于准确地进行天气预报和自然灾害预测。这些应用有助于为大众创造更安全的环境,并使科学家能够预测和更好地应对自然灾害。
  • 娱乐行业的各个方面,从视频游戏到电影、动画、世界构建和虚拟现实,都能够利用生成式 AI 模型简化其内容创作流程。创作者正将生成式模型用作帮助他们发挥创意和提高工作效率的工具。

生成式 AI 面临哪些挑战?

作为一个不断发展的领域,生成式模型被认为仍然处于早期阶段,在以下几个方面还有增长空间。

  1. 计算基础设施的规模:生成式 AI 模型可能拥有数十亿个参数,需要快速高效的数据流水线才能进行训练。为了开发和维护生成式模型,需要大量的资金投入、专业技术和大规模计算基础设施。例如,扩散模型可能需要数百万或数十亿张图像进行训练。此外,为了训练如此庞大的数据集,还需要强大的计算能力,而且 AI 从业者必须采购并使用数百个 GPU 才能训练模型。
  2. 采样速度:由于生成式模型规模庞大,生成实例所需的时间可能存在延迟。特别是在聊天机器人、AI 语音助手或客户服务应用等交互式用例中,对话必须即时且准确。随着扩散模型因其能够创建高质量样本而越来越受欢迎,其采样速度缓慢的问题也变得越来越明显。
  3. 缺乏高质量数据:通常,生成式 AI 模型用于为不同用例生成合成数据。然而,尽管全球每天都会产生大量数据,但并非所有数据都能用于训练 AI 模型。生成式模型需要高质量、无偏见的数据才能运行。此外,某些领域没有足够的数据来训练模型。例如,3D 资产很少,且开发成本高昂。这些领域需要大量资源才能发展成熟。
  4. 数据许可:比缺乏高质量数据的问题更复杂的是,许多组织难以获得使用现有数据集或构建定制数据集来训练生成式模型的商业许可。这是一个极其重要的过程,是避免知识产权侵权问题的关键。

许多公司,如 NVIDIA、Cohere 和微软都致力于通过提供服务和工具来解决这些问题,为生成式 AI 模型的持续增长和发展提供支持。这些产品和平台简化了模型的设置及其大规模运行。

生成式 AI 有哪些优势?

生成式 AI 之所以重要,原因有很多。生成式 AI 的一些关键优势包括:

  1. 生成式 AI 算法可用于创建新的原创内容,例如图像、视频和文本,与人类创造的内容难以区分。这对娱乐、广告和创意艺术等应用非常有用。
  2. 生成式 AI 算法可用于提高现有 AI 系统 (例如自然语言处理和计算机视觉) 的效率和准确性。例如,生成式 AI 算法可用于创建合成数据,这些数据可用于训练和评估其他 AI 算法。
  3. 生成式 AI 算法可用于以新的方式探索和分析复杂数据,使企业和研究人员能够发现原始数据中不明显的隐藏模式和趋势。
  4. 生成式 AI 算法有助于自动执行和加速各种任务和流程,为企业和组织节省时间和资源。

总之,生成式 AI 有可能对各种行业和应用产生重大影响,是 AI 研究和开发的重要领域。

注意:为展示生成式模型的能力,本节“生成式 AI 有哪些优势?”由生成式 AI 模型 ChatGPT 撰写。

后续步骤

深入了解生成式 AI

在 NVIDIA 技术博客中详细了解生成式 AI 模型的开发。

在 NVIDIA AI 游乐园体验生成式 AI

在 NVIDIA AI 游乐园生成风景、虚拟形象、歌曲等。

点播观看生成式 AI 视频和教程

注册查看有关生成式 AI 的免费教程、分步指南和说明视频的视频播放列表。