Обложка канала

tldr_tany

3881 @tldr_tany

Всем привет! Я Таня @tany_savelieva, делаю стартап SupportAI, благотворительный фонд MIPTHEALTH, инвестирую и увлекаюсь web3. Пишу про технологии, работу и то, что меня вдохновляет

tldr_tany

8 лет назад
Открыть в
Quantum Statistics-Inspired Neural Attention
https://arxiv.org/abs/1809.06205
🕐 Когда - 17 сентября 2018
👓 В чем понт
Attention механизм недавно сделал шума в мире deep learning, например показал sota на задаче перевода. Но у существующего метода есть ограничение - вычисление весов основывается на предположении, что каждое слово, в фразе, которую мы переводим, независимо от остальных. Это предположение не учитывает зависимости более высокого порядка, которые могут встречаться в реальных данных. Новый метод, вдохновенный квантовой физикой, позволяет обойти это предположение и показать лучшее качество.

🔎 Подробности
🌱 Classic attention
Seq2seq архитектура состоит из энкодера и декодера. Например, в задаче машинного перевода, энкодер получает на вход набор эмбеддингов для слов, и на каждом временном шаге(слове) генерирует скрытое представление на основе всех предыдущих слов, которое передает дальше. Декодер на каждом этапе декодирования получает на вход предыдущее декодированное слово и вектор контекста, который отражает важную информацию из энкодера. Контекст - это среднее скрытых состояний энкодера с выученными весами, причем для каждого слова в декодере эти веса разные. Веса - это функция от скрытых состояний энкодера и декодера с параметрами, которые учатся attention моделью.
💫 Причем тут квантовая физика?
Когда мы бросаем кубик, часто мы подразумеваем, что он может лежать только на 1 своей грани (как обычный attention считаем веса для каждого отдельного слова в энкодере). В квантовой физике мы добавляем также вероятности того, что кубик может лежать на двух гранях одновременно (аналогия с квантовым attention).
🌈 Quantum attention
В квантовом attention, как сказано выше, мы рассматриваем не только веса отдельных скрытых состояний в энкодере, но и веса для их сумм. Для каждого слова в декодере мы усредняем attention функции этого слова от всех пар с этим словом. Это важно, когда в одном языке комбинация слов вместе создает другой эффект, чем порознь. Например, устойчивое выражение 'козел отпущения' на английский переводится как scapegoat. Слово 'отпущение' вне контекста значит совсем другое и только в комбинации со словом 'козел' может приобрести свой финальный смысл
🔧 Эксперименты
Провели эксперименты, показали, что модель лучше переводит редкие слова, чем обычный attenton и показывает более высокий BLEU на задачах машинного перевода.

🖋 Что в итоге
Сделали логичное усложнение attention, улучшили метрики в задаче машинного перевода, и все это при небольших вычислительных затратах.