Обложка канала

tldr_tany

3881 @tldr_tany

Всем привет! Я Таня @tany_savelieva, делаю стартап SupportAI, благотворительный фонд MIPTHEALTH, инвестирую и увлекаюсь web3. Пишу про технологии, работу и то, что меня вдохновляет

tldr_tany

7 лет назад
Открыть в
On the Pitfalls of Measuring Emergent Communication
https://arxiv.org/abs/1903.05168.pdf
🕐 Когда - 12 марта 2019
👓 В чем понт
Когда мы учим нескольких агентов делать что-то вместе, можно разрешить им обмениваться сообщениями, чтобы они начали справляться с задачей еще лучше. Вопрос, который волнует многих исследователей - как понять, что в процессе обмена сообщениями возникла коммуникация, а не случайный шум или мусор? Авторы из исследований фейсбука и гугла тестируют существующие метрики на модельной задаче, указывают на их особенности и недостатки и предлагают свою.
🔎 Подробности
🔧 Модель

Есть два агента, которые одновременно совершают действия из ограниченного набора, до этого по очереди обмениваясь сообщениями. Этот сценарий агенты повторяют t раз. У агентов есть награды - две квадратных матрицы (у каждого агента своя) с размерностью, равной количеству возможных действий агентов. В этой матрице хранятся награды агенту за его действия, при условии действий другого агента. Если в двух этих матрицах элементы равны по модулю, но противоположны по знаку - такая игра называется игрой с нулевой суммой (если одному стало хорошо, другому стало настолько же плохо). Задача агентов - увеличить свою полезность, выучивая политику- вероятность действия при условии текущего состояния. Задача авторов - посмотреть, какую роль в этом процессе играет обмен сообщениями.
🗒 Какие бывают метрики
Чтобы понять, действительно ли агенты коммуницируют, можно смотреть на следующие величины:
1) Награда агента в задаче. Если увеличилась после добавления сообщения - значит, коммуникация есть. Если не увеличилась - это пока не приговор, возможно коммуникация - это просто альтернативный способ оптимизации, можно смотреть на другие метрики.
2) Энтропия сообщений. Чем ниже, тем лучше.
3) SG (Speaker consistency) - пропорциоальна совстречаемости сообщений агента и его же будущих действий, нормированная на количество таких действий и сообщений.
4) Авторы предложили свою метрику CIC (Causal influence of communication) - итеративно рассчитываемая нормированная метрика, пропорциональная совстречаемости сообщений агента и будущих действий другого(!) агента.
🖋 Результаты
Авторы исследовали несколько сценариев. В первом матрицы наград для обоих агентов были фиксированы на протяжение всех временных шагов. В этом случае агенты демонстрировали простое поведение и коммуникация не помогала - в случае наличия общего интереса агенты повторяли одно и то же действие, в случае игры с нулевой суммой - перебирали возможные действия, не коммуницируя.
Во втором сценарии авторы сэмлировали значение матрицы наград из нормального распределения, чтобы вынудить агентов коммуницировать в условиях неопределенности, и замеряли вышеперечисленные метрики. В качестве контроля авторы решили вместо сгенерированных сообщений, отправлять агентам случайный набор символов. Интересно, что метрика SG показала, что коммуникация есть и в случае случайного набора символов. Авторы обьяснили это тем, что одна и та же сеть (с разными выходами) генерирует сообщения и действия, поэтому корреляция действий и сообщений - просто побочный продукт обучения сети. Интересно также, что метрика авторов CIC не дала прокраски на контроле, так как она зависит от частоты совстречаемости сообщения одного агента и действий другого(!), для совершения которых используется уже другая сеть.

Что в итоге
Достаточно фундаментальное сравнение метрик для изучения коммуникации между агентами. Важно понимать, что 'говорящий' критерий, когда сообщения агента, коррелируют с его дальнейшими действиями или наблюдениями, совершенно необязательно сочетаются со 'слушающим' критерием, когда сообщение влияет на поведение агента. А для выявления коммуникации нужны оба этих критерия. Поэтому использование привычной метрики SG, без наблюдений остальных - опасно. Предложенная авторами метрика CIC решает проблему отсутствия 'слушающего' критерия. Учитывая то, что область набирает популярность, может быть полезно для большого числа исследований.