生成式 AI 使用户能够根据各种输入快速生成新内容。这些模型的输入和输出可以包括文本、图像、声音、动画、3D 模型或其他类型的数据。
生成式 AI 模型使用神经网络来识别现有数据中的模式和结构,以生成新的原创内容。
生成式 AI 模型的一项突破是能够利用不同的学习方法 (包括无监督学习或半监督学习) 进行训练。这使得组织能够更轻松、更快速地利用大量未标记的数据来构建基础模型。顾名思义,基础模型可以用作 AI 系统的基础,执行多项任务。
基础模型的示例包括 GPT-3 和 Stable Distance,它们使用户能够充分利用语言的强大力量。例如,基于 GPT-3 的 ChatGPT 等热门应用使用户可以根据简短的文本请求生成一篇文章,而 Stable Diffusion 使用户可以根据文本输入生成逼真的图像。
图 1:成功的生成式 AI 模型的三个要求。
生成式模型有多种类型,将每种模型的优势相结合,就能创建更强大的模型。
生成式模型的类型如下:
图 2:扩散和去噪过程。
与变分自编码器 (VAE) 模型相比,扩散模型可能需要更长的训练时间,但得益于这个两步过程,可以训练数百个层(只要不是无限数量),这意味着在构建生成式 AI 模型时,扩散模型通常会提供最高质量的输出。
此外,扩散模型也被归类为基础模型,因为它们规模庞大,输出质量高,灵活性强,被认为最适合通用用例。然而,由于存在反向采样过程,运行基础模型是一个缓慢且耗时的过程。
这两个模型一起训练,随着生成器生成更好的内容、鉴别器更好地识别生成的内容,它们也变得更智能。这个过程不断重复,推动它们在每次迭代后持续改进,直到生成的内容与现有内容无法区分为止。
虽然 GAN 可以提供高质量的样本并快速生成输出,但样本多样性较弱,因此 GAN 更适合特定领域的数据生成。
生成式模型开发中的另一个因素是底层架构。最流行的架构之一是 Transformer 网络。了解它在生成式 AI 环境中的工作原理非常重要。
Transformer 网络:Transformer 与循环神经网络类似,用于以非序列方式处理顺序输入数据。
两种机制使 Transformer 特别适合基于文本的生成式 AI 应用:自注意力和位置编码。这两种技术都有助于表示时间,使算法能够专注于单词在长距离下的相互关系
图 3:图片来自 Aidan Gomez 的演讲,他是 2017 年提出 Transformer 概念的论文的八位合著者之一 (资料来源)。
自注意力层为输入的每个部分分配一个权重。权重表示该输入在上下文中相对于其余输入的重要性。位置编码是输入词出现顺序的表示方式。
一个 Transformer 由多个 Transformer 块 (也称为层) 组成。例如,Transformer 包含自注意力层、前馈层和归一化层,这些层全部协同运行来解密和预测标记化数据流,其中可能包括文本、蛋白质序列甚至图像块。
生成式 AI 是能够简化创作者、工程师、研究人员、科学家等工作流的强大工具。其用例和可能性涵盖了各个行业和人群。
生成式 AI 模型可以接受文本、图像、音频、视频和代码等输入,生成上述任何形式的新内容。例如,它可以将文本输入转换为图像,将图像转换为歌曲,或将视频转换为文本。
图 4:该示意图展示了每个类别中可能的生成式 AI 用例。
生成式模型的影响广泛,其应用也在不断增加。下面仅列举生成式 AI 如何帮助推动和改变交通运输、自然科学和娱乐领域的几个例子。
作为一个不断发展的领域,生成式模型被认为仍然处于早期阶段,在以下几个方面还有增长空间。
许多公司,如 NVIDIA、Cohere 和微软都致力于通过提供服务和工具来解决这些问题,为生成式 AI 模型的持续增长和发展提供支持。这些产品和平台简化了模型的设置及其大规模运行。
生成式 AI 之所以重要,原因有很多。生成式 AI 的一些关键优势包括:
总之,生成式 AI 有可能对各种行业和应用产生重大影响,是 AI 研究和开发的重要领域。
注意:为展示生成式模型的能力,本节“生成式 AI 有哪些优势?”由生成式 AI 模型 ChatGPT 撰写。