Answerer in Questioner’s Mind: Information Theoretic Approach to Goal-Oriented Visual Dialog http://papers.nips.cc/paper/7524-answerer-in-questioners-mind-information-theoretic-approach-to-goal-oriented-visual-dialog.pdf 👓В чем понт? Свежая статья с NIPS 2018 (извините, NeurIPS😇), в которой авторы учат спрашивающего агента за минимальное число вопросов узнать у отвечающего агента класс обьекта на картинке, и бьют текущую SOTA. Главная фишка - спрашивающий выбирает такой вопрос, который минимизирует энтропию нужного класса, заранее подготавливая возможные вопросы. 🔎Подробности Предыдущие SOTA состояли из отвечающего агента - простая сеть, генерящая ответ при условии вопроса и правильного класса, и спрашивающего агента - две реккурентный сетки, одна из которых генерит вопрос, вторая на основании ответа угадывает класс. Отвечающий в модели авторов не изменился, зато спрашивающий агент стал умнее. Теперь спрашивающий агент до начала игры генерит набор возможных вопросов. Потом из этих вопросов, зная набор классов и ответ, спрашивающий выбирает вопрос, который минимизирует энтропию по всему набору классов. Правильный класс при условии ответа выражается, как максимум вероятности из всех классов при условии ответа, состояния системы и вопроса (апостериорной вероятности). Чтобы все это посчитать, спрашивающему нужно знать модель отвечающего - вероятность ответа при условии вопрос и класса, так как параметры мы не шарим. Поэтому спрашивающий сеткой аппроксимирует эту вероятность. 🖋 Что в итоге? Сделали модель, которая угадывает правильный класс в 63% случаях при 3 попытках и 79% случаев при 10 попытках, а ближайщие конкуренты дают качество 52% при 4 попытках. Так как голосовые помощники должны не только правдоподобно изображать человека, но и помогать отвечать на конкретные вопросы, улучшение очень важно. От вопросов и ответов о том, что изображено на картинке, можно перейти, например к генерации диалогов в ресторане - “Would you like to order?”- “Two coffees, please”.