DeepMind представила языковую модель RETRO, в которой реализована схема обучения, основанная на использовании внешней памяти. RETRO демонстрирует сравнимые с GPT-3 результаты несмотря на то, что она имеет в 25 раз меньше параметров. #StateoftheArt