tldr_tany(@tldr_tany). Improving Language Understanding by Generative Pre-Training https://blog.openai.com/language-unsuper

Improving Language Understanding by Generative Pre-Training
https://blog.openai.com/language-unsupervised/
🕐Когда - препринт
👓 В чем понт
Пайплайн от OpenAI, включающий в себя тренировку на неразмеченных данных, а потом тюнинг под конкретную задачу, который значительно улучшает качество на 9 из 12 рассмотренных NLP задач, например на 9 процентов в задаче понимания текста (датасет подбора подходящего окончания под часть текста Stories Cloze Test) и на 6 процентов в задаче ответа на вопросы (датасет RACE - вопросы с экзаменов)

🔎 Подробности
🔗Предобучение без учителя.
Перед тем как учить конкретную задачу NLP, тренируется модель, основанная на нашумевшей архитектуре Transformer, в которой входные токены, слитые с номерами своих позиций в предложении, обрабатываются с помощью аттеншна - учатся веса, с которыми нужно усреднять эти вектора. В процессе обучения мы предсказываем вероятность каждого токена(например слова) при условии предыдущих. На выходе получаем языковую модель - представление текста в информативном векторном пространстве.

🗝Тюнинг на конкретных задачах
Берем наше представление и доучиваем на размеченной выборке конкретной задачи, лосс тюнинга усредняем с лоссом предобучения без учителя. В каждой задаче используется специфическая предобработка данных, например, для задачи ответа на вопросы мы сливаем вектора вопроса, предложения и каждого ответа отдельно, получая для каждого такого объекта свою вероятность. Вся архитектура показана на рисунке под постом.

🖋 Что в итоге
Простой и эффективный стек для улучшения качества на своей задаче с помощью неразмеченных данных, подтверждает курс в NLP на обьединение разных задач, использование неразмеченных данных и attention.