Transformer位置编码

¶Transformer位置编码

不同于RNN、CNN等模型，对于Transformer模型来说，位置编码的加入是必不可少的，因为纯粹的Attention模块是无法捕捉输入顺序的，即无法区分不同位置的Token。为此我们大体有两个选择：

一般来说，绝对位置编码会加到输入中：在输入的第k个向量 $x_k$ 中加入位置向量 $p_k$变为$x_k + p_k $，其中 $p_k$ 只依赖于位置编号k。

直接将位置编码当作可训练参数，比如最大长度为512，编码维度为768，那么就初始化一个512×768 的矩阵作为位置向量，让它随着训练过程更新。现在的BERT、GPT等模型所用的就是这种位置编码

缺点：

没有外推性，即如果预训练最大长度为512的话，那么最多就只能处理长度为512的句子，再长就处理不了了。

当然，也可以将超过512的位置向量随机初始化，然后继续微调。但笔者最近的研究表明，通过层次分解的方式，可以使得绝对位置编码能外推到足够长的范围，同时保持还不错的效果，细节请参考笔者之前的博文《层次分解位置编码，让BERT可以处理超长文本》。因此，其实外推性也不是绝对位置编码的明显缺点。