与变分自编码器 (VAE) 模型相比,扩散模型可能需要更长的训练时间,但得益于这个两步过程,可以训练数百个层(只要不是无限数量),这意味着在构建生成式 AI 模型时,扩散模型通常会提供最高质量的输出。
此外,扩散模型也被归类为基础模型,因为它们规模庞大,输出质量高,灵活性强,被认为最适合通用用例。然而,由于存在反向采样过程,运行基础模型是一个缓慢且耗时的过程。
在这篇博客文章中详细了解扩散模型的数学原理。
- 变分自动编码器 (VAE):VAE 由两个神经网络组成,通常称为编码器和解码器。
当接收到输入时,编码器将其转换为更小、更密集的数据表示方式。这种压缩表示方式保留了解码器重建原始输入数据所需的信息,同时丢弃了所有不相关的信息。编码器和解码器协同运行,学习高效简单的潜在数据表示方式。这使得用户能够轻松对新的潜在表示方式进行采样,并通过解码器映射生成新的数据。
虽然 VAE 可以更快地生成图像等输出,但它们生成的图像不像扩散模型生成的图像那样拥有丰富的细节。
- 生成式对抗网络 (GAN):GAN 发现于 2014 年,在扩散模型最近取得成功之前,GAN 被认为是这三种方法中最常用的方法。GAN 让两个神经网络相互对抗:一个是生成器,用于生成新的示例;另一个是鉴别器,用于学习区分生成内容是真实内容(来自域)还是虚假内容(生成的内容)。
这两个模型一起训练,随着生成器生成更好的内容、鉴别器更好地识别生成的内容,它们也变得更智能。这个过程不断重复,推动它们在每次迭代后持续改进,直到生成的内容与现有内容无法区分为止。
虽然 GAN 可以提供高质量的样本并快速生成输出,但样本多样性较弱,因此 GAN 更适合特定领域的数据生成。
生成式模型开发中的另一个因素是底层架构。最流行的架构之一是 Transformer 网络。了解它在生成式 AI 环境中的工作原理非常重要。
Transformer 网络:Transformer 与循环神经网络类似,用于以非序列方式处理顺序输入数据。
两种机制使 Transformer 特别适合基于文本的生成式 AI 应用:自注意力和位置编码。这两种技术都有助于表示时间,使算法能够专注于单词在长距离下的相互关系