大语言模型说明

大语言模型 (LLM) 是一种深度学习算法，可以使用非常大的数据集来识别、总结、翻译、预测和生成内容。

什么是大语言模型？

大语言模型在很大程度上代表了一类名为转换器网络的深度学习架构。转换器模型是一种神经网络，通过追踪序列数据 (如本句中的单词) 中的关系学习上下文及其含义。

转换器由多个转换器块 (也称为层) 组成。例如，转换器具有自注意层、前馈层和归一化层，所有这些层协同发挥作用来解密输入内容，以便在推理时预测输出流。这些层可以进行堆叠，形成更深层的转换器和强大的语言模型。转换器最早由 Google 在 2017 年的论文“Attention Is All You Need”中提出。

Explore about how transformer models work

图 1. 转换器模型的工作原理。

有两项关键创新使得转换器特别适合大语言模型：位置编码和自注意力机制。

位置编码会嵌入输入内容在给定序列中的顺序。从本质上讲，有了位置编码，就可以不按顺序将句子中的单词输入到神经网络。

自注意力机制会在处理输入数据时为输入数据的每个部分分配一个权重。此权重表示相应输入内容在上下文中相对于其余输入内容的重要性。换句话说，模型不再需要向所有输入内容投入同样的注意力，而是可以专注于输入内容中真正重要的部分。这种关于神经网络需要关注输入内容的哪些部分的具体表示，是在模型筛选和分析大量数据的过程中逐渐学习到的。

将这两种技术加以结合，可以分析不同元素如何在长距离、非顺序的情况下相互影响和关联的微妙方式与上下文。

以非顺序方式处理数据的能力能够将复杂问题分解为多个较小的同步计算。自然，GPU 非常适合并行解决这些类型的问题，从而可以大规模处理大规模无标签数据集和庞大的转换器网络。

大语言模型为什么很重要？

从历史上看，AI 模型一直专注于感知和理解。

然而，在拥有数千亿个参数的互联网规模数据集上训练出来的大语言模型，现已展现出 AI 模型生成类人内容的能力。

模型能够以可信的方式读取、编写、编码、绘制和创作，增强人类的创造力并提高各行业的工作效率，从而解决世界上的棘手难题。

这些 LLM 的应用涵盖了大量的用例。例如，AI 系统可以学习蛋白质序列的语言，以提供可行的化合物，帮助科学家开发拯救生命的突破性疫苗。

或者，计算机可以帮助人类做自己擅长的事情，即挥洒创意、与人沟通和进行创造。在写作中遇到瓶颈的作家可以使用大语言模型来帮助激发他们的创造力。

另外，软件程序员也可以借此提高工作效率，利用 LLM 来根据自然语言描述生成代码。

大语言模型的示例有哪些？

整个计算堆栈的进步对开发日益复杂的 LLM 起到了促进作用。2020 年 6 月，OpenAI 发布了 GPT-3，该模型拥有 1750 亿个参数，可以通过简短的书面提示生成文本和代码。2021 年，NVIDIA 和微软共同开发了 Megatron-Turing Natural Language Generation 530B，这是世界范围内的大型阅读理解和自然语言推理模型之一，拥有 5300 亿个参数。

随着 LLM 规模的扩大，其功能也在不断增强。广义上讲，在基于文本的内容方面的 LLM 用例可以按以下方式划分：

生成 (例如，故事写作、营销内容创作)
总结 (例如，法律释义、会议记录总结)
翻译 (例如，语言翻译、文本转代码)
分类 (例如，毒性分类、情绪分析)
聊天机器人 (例如，开放域问答、虚拟助手)

世界各地的企业正开始利用 LLM 来实现新的可能性：

医学研究人员利用来自教科书、研究论文和患者电子健康记录中的数据语料库，训练医疗健康领域的大语言模型，以完成蛋白质结构预测等任务，从而发现疾病的模式并预测结果。
零售商可以利用大语言模型 (LLM)，通过动态的聊天机器人，为顾客提供卓越的体验。
开发者可以利用 LLM 来编写软件并教会机器人如何执行实际任务。
财务顾问可以使用 LLM 来总结盈利电话会议并创建重要会议的记录。
营销人员可以训练 LLM，将客户反馈和请求整理成集群，或根据产品描述将产品细分为各个类别。

大语言模型仍处于早期阶段，前景巨大；具有零样本学习能力的单一模型可以通过即时理解并产生类似人类的思维，来解决几乎所有可以想象到的问题。用例涵盖每个公司、每笔商业交易和每个行业，能够带来巨大的价值创造机会。

大语言模型的工作原理是什么？

大语言模型采用无监督式学习进行训练。通过无监督式学习，模型可以使用无标签数据集在数据中找到先前未知的模式。这样也无需再对大量数据进行标记，这项工作是构建 AI 模型的巨大挑战之一。

由于 LLM 经历了广泛的训练流程，模型不需要针对任何特定任务进行训练，而是可以服务于多种用例。这些类型的模型被称为基础模型。

基础模型无需太多指导或训练即可生成用于各种用途的文本，这种能力被称为零样本学习。这种能力的不同变体包括单样本或多样本学习，即向基础模型输入一个或几个示例，说明如何完成任务，以便模型理解和更好地执行选定的用例。

尽管大语言模型的零样本学习具有巨大的潜力，但开发者和企业仍然渴望驯服这些系统，使系统按照他们期望的方式运行。要针对特定用例部署这些大语言模型，可以使用多种技术对模型进行定制，以实现更高的准确性。其中一些技术包括快速调整、微调和适配器。

The structure of encoder-decoder language models

图 2. 图像显示编码器-解码器语言模型的结构。

有几类大语言模型适用于不同类型的用例：

仅编码器：这些模型通常适用于可以理解语言的任务，例如分类和情绪分析。仅编码器模型的示例包括 BERT (Bidirectional Encoder Representations from Transformers)。
仅解码器：此类模型非常擅长生成语言和内容。一些用例包括故事写作和博客生成。仅解码器架构的示例包括 GPT-3 (Generative Pretrained Transformer 3)。
编码器-解码器：这些模型结合了转换器架构的编码器和解码器组件，能够理解和生成内容。该体系架构的一些优势应用场景包括翻译和总结。编码器-解码器架构的示例包括 T5 (Text-to-Text Transformer)。

大语言模型面临哪些挑战？

开发和维护大语言模型所需的大量资本投入、大型数据集、技术专业知识以及大规模计算基础设施，一直是大多数企业采用这些模型的进入障碍。

Compute required for training transformer models

图 3. 训练转换器模型所需的计算。

计算、成本和时间密集型工作负载：维护和开发 LLM 需要大量的资本投入、技术专业知识和大规模计算基础设施。训练 LLM 需要数千个 GPU，以及数周至数月的专门训练时间。一些估计表明，一个拥有 1750 亿个参数的 GPT-3 模型，在 3000 亿个标记上训练一次，仅计算成本就可能超过 1200 万美元。
所需数据规模：如上所述，训练大型模型需要海量的数据。许多公司都在努力获取足够大的数据集来训练他们的大语言模型。对于需要私人数据 (例如财务或健康数据) 的用例来说，这个问题更加复杂。事实上，训练模型所需的数据可能甚至都不存在。
技术专业知识：由于规模庞大，训练和部署大语言模型非常困难，需要对深度学习工作流程、转换器以及分布式软件和硬件有深入的了解，以及能够同时管理数千个 GPU 的能力。

如何开始使用大语言模型？

NVIDIA 提供了一些工具来简化大语言模型的构建和部署：

NVIDIA NeMo 服务属于 NVIDIA AI Foundations，是一项面向企业的云服务，可用于构建高度个性化的智能大语言模型并进行大规模部署。
NVIDIA BioNeMo 服务属于 NVIDIA AI Foundations，是一种用于药物发现的生成式 AI 云服务，可允许研究人员大规模定制和部署特定领域的先进生成式和预测性生物分子 AI 模型。
NVIDIA Picasso 服务属于 NVIDIA AI Foundations，是一种用于构建和部署由生成式 AI 赋能的图像、视频和 3D 应用程序的云服务。
NVIDIA NeMo 框架属于 NVIDIA AI 平台，这个端到端云原生企业框架可用于构建、定制和部署拥有数十亿参数的生成式 AI 模型。

尽管面临挑战，但大语言模型的前景仍然良好。NVIDIA 及其生态系统致力于让消费者、开发者和企业享受到大语言模型带来的益处。

后续步骤

探索我们的 LLM 解决方案

了解 NVIDIA 如何通过我们的 LLM 解决方案帮助企业实现大语言模型的普及。

了解有关 LLM 的更多信息

观看 LLM 视频和教程

从教程和讲解内容，再到案例研究和分步指南，这个免费大语言模型视频的播放列表中包含各种内容。

查看 LLM 视频和教程

深化有关 LLM 的技术知识

在 NVIDIA 技术博客上了解有关开发大语言模型的更多信息。

阅读 LLM 技术博客