上QQ阅读APP看书,第一时间看更新
2.1 Transformer简介
近年来深度学习已成为机器学习领域的一大突破,它通过构建多层次的神经网络模型,赋予了计算机更强大的表示学习能力。在自然语言处理领域,深度学习同样取得了令人瞩目的成果。其中,循环神经网络(Recurrent Neural Networks,RNN)和卷积神经网络(Convolutional Neural Network,CNN)等方法已被广泛应用于文本序列建模和语义理解任务。然而,这些传统深度学习模型也存在一些问题,如梯度消失/梯度爆炸以及对长距离依赖关系的处理不足等。
在这样的背景下,一种全新的模型结构——Transformer应运而生。Transformer的核心思想在于引入自注意力机制(self-attention),有效地解决了传统深度学习模型在处理长距离依赖时的问题,并且显著提升了并行计算能力。自诞生以来,Transformer已在各种NLP任务中取得了卓越的成绩。