有两项关键创新使得转换器特别适合大语言模型:位置编码和自注意力机制。
位置编码会嵌入输入内容在给定序列中的顺序。从本质上讲,有了位置编码,就可以不按顺序将句子中的单词输入到神经网络。
自注意力机制会在处理输入数据时为输入数据的每个部分分配一个权重。此权重表示相应输入内容在上下文中相对于其余输入内容的重要性。换句话说,模型不再需要向所有输入内容投入同样的注意力,而是可以专注于输入内容中真正重要的部分。这种关于神经网络需要关注输入内容的哪些部分的具体表示,是在模型筛选和分析大量数据的过程中逐渐学习到的。
将这两种技术加以结合,可以分析不同元素如何在长距离、非顺序的情况下相互影响和关联的微妙方式与上下文。
以非顺序方式处理数据的能力能够将复杂问题分解为多个较小的同步计算。自然,GPU 非常适合并行解决这些类型的问题,从而可以大规模处理大规模无标签数据集和庞大的转换器网络。