大语言模型 (LLM) 是一种深度学习算法,可以使用非常大的数据集来识别、总结、翻译、预测和生成内容。
大语言模型在很大程度上代表了一类名为转换器网络的深度学习架构。转换器模型是一种神经网络,通过追踪序列数据 (如本句中的单词) 中的关系学习上下文及其含义。
转换器由多个转换器块 (也称为层) 组成。例如,转换器具有自注意层、前馈层和归一化层,所有这些层协同发挥作用来解密输入内容,以便在推理时预测输出流。这些层可以进行堆叠,形成更深层的转换器和强大的语言模型。转换器最早由 Google 在 2017 年的论文“Attention Is All You Need”中提出。
图 1. 转换器模型的工作原理。
有两项关键创新使得转换器特别适合大语言模型:位置编码和自注意力机制。
位置编码会嵌入输入内容在给定序列中的顺序。从本质上讲,有了位置编码,就可以不按顺序将句子中的单词输入到神经网络。
自注意力机制会在处理输入数据时为输入数据的每个部分分配一个权重。此权重表示相应输入内容在上下文中相对于其余输入内容的重要性。换句话说,模型不再需要向所有输入内容投入同样的注意力,而是可以专注于输入内容中真正重要的部分。这种关于神经网络需要关注输入内容的哪些部分的具体表示,是在模型筛选和分析大量数据的过程中逐渐学习到的。
将这两种技术加以结合,可以分析不同元素如何在长距离、非顺序的情况下相互影响和关联的微妙方式与上下文。
以非顺序方式处理数据的能力能够将复杂问题分解为多个较小的同步计算。自然,GPU 非常适合并行解决这些类型的问题,从而可以大规模处理大规模无标签数据集和庞大的转换器网络。
从历史上看,AI 模型一直专注于感知和理解。
然而,在拥有数千亿个参数的互联网规模数据集上训练出来的大语言模型,现已展现出 AI 模型生成类人内容的能力。
模型能够以可信的方式读取、编写、编码、绘制和创作,增强人类的创造力并提高各行业的工作效率,从而解决世界上的棘手难题。
这些 LLM 的应用涵盖了大量的用例。例如,AI 系统可以学习蛋白质序列的语言,以提供可行的化合物,帮助科学家开发拯救生命的突破性疫苗。
或者,计算机可以帮助人类做自己擅长的事情,即挥洒创意、与人沟通和进行创造。在写作中遇到瓶颈的作家可以使用大语言模型来帮助激发他们的创造力。
另外,软件程序员也可以借此提高工作效率,利用 LLM 来根据自然语言描述生成代码。
整个计算堆栈的进步对开发日益复杂的 LLM 起到了促进作用。2020 年 6 月,OpenAI 发布了 GPT-3,该模型拥有 1750 亿个参数,可以通过简短的书面提示生成文本和代码。2021 年,NVIDIA 和微软共同开发了 Megatron-Turing Natural Language Generation 530B,这是世界范围内的大型阅读理解和自然语言推理模型之一,拥有 5300 亿个参数。
随着 LLM 规模的扩大,其功能也在不断增强。广义上讲,在基于文本的内容方面的 LLM 用例可以按以下方式划分:
生成 (例如,故事写作、营销内容创作)
总结 (例如,法律释义、会议记录总结)
翻译 (例如,语言翻译、文本转代码)
分类 (例如,毒性分类、情绪分析)
聊天机器人 (例如,开放域问答、虚拟助手)
世界各地的企业正开始利用 LLM 来实现新的可能性:
大语言模型仍处于早期阶段,前景巨大;具有零样本学习能力的单一模型可以通过即时理解并产生类似人类的思维,来解决几乎所有可以想象到的问题。用例涵盖每个公司、每笔商业交易和每个行业,能够带来巨大的价值创造机会。
大语言模型采用无监督式学习进行训练。通过无监督式学习,模型可以使用无标签数据集在数据中找到先前未知的模式。这样也无需再对大量数据进行标记,这项工作是构建 AI 模型的巨大挑战之一。
由于 LLM 经历了广泛的训练流程,模型不需要针对任何特定任务进行训练,而是可以服务于多种用例。这些类型的模型被称为基础模型。
基础模型无需太多指导或训练即可生成用于各种用途的文本,这种能力被称为零样本学习。这种能力的不同变体包括单样本或多样本学习,即向基础模型输入一个或几个示例,说明如何完成任务,以便模型理解和更好地执行选定的用例。
尽管大语言模型的零样本学习具有巨大的潜力,但开发者和企业仍然渴望驯服这些系统,使系统按照他们期望的方式运行。要针对特定用例部署这些大语言模型,可以使用多种技术对模型进行定制,以实现更高的准确性。其中一些技术包括快速调整、微调和适配器。
图 2. 图像显示编码器-解码器语言模型的结构。
有几类大语言模型适用于不同类型的用例:
开发和维护大语言模型所需的大量资本投入、大型数据集、技术专业知识以及大规模计算基础设施,一直是大多数企业采用这些模型的进入障碍。
图 3. 训练转换器模型所需的计算。
NVIDIA 提供了一些工具来简化大语言模型的构建和部署:
尽管面临挑战,但大语言模型的前景仍然良好。NVIDIA 及其生态系统致力于让消费者、开发者和企业享受到大语言模型带来的益处。