Всем привет! Я Таня @tany_savelieva, делаю стартап SupportAI, благотворительный фонд MIPTHEALTH, инвестирую и увлекаюсь web3. Пишу про технологии, работу и то, что меня вдохновляет
Improving Language Understanding by Generative Pre-Training https://blog.openai.com/language-unsupervised/ 🕐Когда - препринт 👓В чем понт Пайплайн от OpenAI, включающий в себя тренировку на неразмеченных данных, а потом тюнинг под конкретную задачу, который значительно улучшает качество на 9 из 12 рассмотренных NLP задач, например на 9 процентов в задаче понимания текста (датасет подбора подходящего окончания под часть текста Stories Cloze Test) и на 6 процентов в задаче ответа на вопросы (датасет RACE - вопросы с экзаменов)
🔎Подробности 🔗Предобучение без учителя. Перед тем как учить конкретную задачу NLP, тренируется модель, основанная на нашумевшей архитектуре Transformer, в которой входные токены, слитые с номерами своих позиций в предложении, обрабатываются с помощью аттеншна - учатся веса, с которыми нужно усреднять эти вектора. В процессе обучения мы предсказываем вероятность каждого токена(например слова) при условии предыдущих. На выходе получаем языковую модель - представление текста в информативном векторном пространстве.
🗝Тюнинг на конкретных задачах Берем наше представление и доучиваем на размеченной выборке конкретной задачи, лосс тюнинга усредняем с лоссом предобучения без учителя. В каждой задаче используется специфическая предобработка данных, например, для задачи ответа на вопросы мы сливаем вектора вопроса, предложения и каждого ответа отдельно, получая для каждого такого объекта свою вероятность. Вся архитектура показана на рисунке под постом.
🖋Что в итоге Простой и эффективный стек для улучшения качества на своей задаче с помощью неразмеченных данных, подтверждает курс в NLP на обьединение разных задач, использование неразмеченных данных и attention.