tldr_arxiv(@tldr_arxiv). 🍾👶 Olive Oil is Made of Olives, Baby Oil is Made for Babies: Interpreting Noun Compounds using Parap

🍾👶 Olive Oil is Made of Olives, Baby Oil is Made for Babies: Interpreting Noun Compounds using Paraphrases in a Neural Model
https://arxiv.org/pdf/1803.08073.pdf
🕐 Когда - 21 марта 2018 год
👓 В чем понт
Часто в голосовых помощниках возникает потребность понимать взаимоотношения слов внутри словосочетаний. Например, когда вы спрашиваете у голосового помощника: 'Алиса, есть ли у меня собрание утром сегодня?’, вы хотите, чтобы помощник посмотрел список собраний утром. А когда вы задаете вопрос: 'Алиса, когда у меня сегодня собрание маркетологов?'- нужно, чтобы помощник проанализировал список участников встреч. То есть стоит понимать, в каких отношениях находятся между собой слова в сочетаниях ' собрание (когда?) утром' и 'собрание (кого?) маркетологов’. В статье авторы классифицируют связи между существительными в словосочетаниях, в том числе и на словах, которые модель никогда не видела, и превосходят другие методы в этой задаче.
🔎 Подробности
🎲 Модель
Для того, чтобы предсказывать, к какому классу принадлежит связь в словосочетании, нужно получить его признаковое описание. Авторы берут четыре эмбеддинга и склеивают их между собой. Первые два эмбеддинга дистрибутивные(рассчитанные на основе совместноговстречания слов) - это GloVe вектора двух слов в словосочетании. Они нужны, чтобы извлечь информацию о смысле отдельных слов. Третий эмбеддинг мы получаем, склеив эти два слова в один токен и построив для него тот же эмбеддинг GloVe, но который уже учитывает совместный контекст слов. Четвертый эмбеддинг - это path-эмбеддинг, взятый из статьи одного из авторов с сетью с интригующим названием HYPENet (https://arxiv.org/pdf/1608.05014.pdf). Дело в том, что часто наши существительные разделяют еще какие-то слова, назовем все эти слова путем. Превратив все возможные пути между нашими существительными из словосочетаний в вектора, и усреднив все вектора для путей с учетом частоты каждого возможного варианта пути, можно получить очень полезную информацию о двух наших существительных. Такие вектора для путей мы получаем запихивая в LSTM эмбеддинги, выученные на основе признаков всех слов, входящих в путь (частей речи, направления связи, лемм и типа зависимости между ними) .
После того, как мы получили один такой большой эмбеддинг из четырех частей, мы подаем его в модель и обучаем многоклассовой классификации на нашей обучающей выборке. Для того, чтобы понимать, какие из эмбеддингов вносят наибольший вклад и лучше работают, в качестве финального эмбеддинга пробовались еще несколько вариантов - только четвертый path-embedding, а также комбинация из первых двух дистрибутивных и четвертого path-embedding.
🔧 Эксперименты
Эксперименты проводились на датасете Tratz dataset. Датасет разбивался на train и test четырьмя разными способами - 1) случайно, 2) так, чтобы первое слово в словосочетании было уникальным для train и test, 3) второе слово было уникально, 4) а также, чтобы уникальными были оба слова. Дело в том, что если тестироваться только на случайно разбитой выборке, модель может просто запомнить все словосочетания в train и перенести их на test. В качестве baseline были взяты несколько моделей без path-эмбеддингов. Модели, которые используют path-эмбеддинги, выигрывают у baseline, которые его не содержат.
✏️ Что в итоге
Сделана модель, с помощью которой можно понимать взаимосвязи между существительными и улучшать разные виды помощников и диалоговых систем. Также поставлен эксперимент, в результате которого можно сказать, что path-эмбеддинги улучшают результаты модели.