Apparat(@apparatmag). Давно не писали про интересные истории — исправляемся. На проходящей сейчас в Лос-Анджелесе конферен

Давно не писали про интересные истории — исправляемся. На проходящей сейчас в Лос-Анджелесе конференции по компьютерной анимации Siggraph 2017 исследователи из Канады и Сингапура представили алгоритм глубокого обучения с подкреплением, позволяющий двуногим виртуальным роботам методом проб и ошибок научиться ходить, бегать и вести мяч.

Представьте, что вы учите ребенка ходить. Обучение с подкреплением — это когда даются не конкретные задачи (например, «научиться ходить») и инструкции для их выполнения, а только глобальная цель. Например, «добраться из одного пункта в другой».

В эксперименте исследователи вознаграждали виртуальный персонаж за успехи, а за ошибки — столкновения с препятствиями и падения — штрафовали. В процессе достижения глобальной цели персонаж вынужден был научиться ходить, бегать, уклоняться от предметов и т.д.

Что самое важное: так же можно обучать и реальных роботов.

Вот короткое видео с объяснением того, как работает алгоритм DeepLoco. На низком уровне он планирует конкретные шаги персонажа, а на высоком строит долгосрочную стратегию, как ему добраться из одного пункта в другой.

https://www.youtube.com/watch?v=G4lT9CLyCNw