Внимание — это все, что вам нужно
Это статья из Google Brain и Google Research, в которой изначально была предложена идея замены RNN-сетей в обработке естественного языка. В статье автор объяснил теоретическое устройство трансформера, а затем реализовал его в PyTorch.
Читать статью