Давно не писали про интересные истории — исправляемся. На проходящей сейчас в Лос-Анджелесе конференции по компьютерной анимации Siggraph 2017 исследователи из Канады и Сингапура представили алгоритм глубокого обучения с подкреплением, позволяющий двуногим виртуальным роботам методом проб и ошибок научиться ходить, бегать и вести мяч.
Представьте, что вы учите ребенка ходить. Обучение с подкреплением — это когда даются не конкретные задачи (например, «научиться ходить») и инструкции для их выполнения, а только глобальная цель. Например, «добраться из одного пункта в другой».
В эксперименте исследователи вознаграждали виртуальный персонаж за успехи, а за ошибки — столкновения с препятствиями и падения — штрафовали. В процессе достижения глобальной цели персонаж вынужден был научиться ходить, бегать, уклоняться от предметов и т.д.
Что самое важное: так же можно обучать и реальных роботов.
Вот короткое видео с объяснением того, как работает алгоритм DeepLoco. На низком уровне он планирует конкретные шаги персонажа, а на высоком строит долгосрочную стратегию, как ему добраться из одного пункта в другой.
Highlights video for the SIGGRAPH 2017 paper. Project page: http://www.cs.ubc.ca/~van/papers/2017-TOG-deepLoco/index.html Music provided by NoCopyrightSounds...