Рассказы, анализ и аннотации происходящего на стыке науки, технологий, бизнеса и общества. Поскольку переделать мир мы не можем, то давайте попробуем его понять.
Это может быть революцией роботов. За которой маячит революция AGI. Проясняется, на что рассчитывает DeepMind, прожигая миллиарды. И честно говоря, задача того стоит. Это действительно ИИ общего назначения (AGI). Собственно, руководство DeepMind этого и не скрывало. Но вот как они планируют этого добиться, было непонятно. А теперь проясняется.
Стратегическая логика здесь такова. 1) AGI должен быть воплощенным. Значит полагаться только на алгоритмы настольных и компьютерных игр (всякие там AlphaGo, Alphazero … ) нет смысла. 2) Значит речь о роботах, материализованных и действующих в физическом мире. 3) Первейший ключевой навык для робота – движение (сенсорно-моторные навыки, направленные на достижения цели). И главный фокус здесь в том, чтобы для обучения движению роботу не требовалось море данных, как это принято у алгоритмов типа Alphazero. Надо чтобы робот попробовал некое разумное число раз, - и научился. 4) Но движение бывает разное. Для муравья, воробья и карася – это совсем не одно и то же (разные среды). Более того: для сухопутных паука, червяка и барсука– это тоже совсем не одно и то же (разные способы и механизмы движения). Значит нужно, чтобы робот мог самостоятельно учиться УНИВЕРСАЛЬНОМУ движению. 5) Что потом? Да понятно что. Ведь из примитивов универсального движения, возможно, и складывается механизм мышления. И значит, второе может быть получено на основе первого.
К реализации п. 3 DeepMind приступил 2 года назад, создав новую парадигму обучения — Scheduled Auxiliary Control или SAC-X (запланированное вспомогательное управление). Подробней см. здесь. Парадигма SAC-X основана на идее, что для выполнения сложных задач ИИ должен сначала научиться исследовать доступную зону и овладеть набором базовых навыков.
С реализацией п. 4 связана опубликованная на днях работа «Towards General and Autonomous Learning of Core Skills: A Case Study in Locomotion». В ней на основе SAC-X предложено универсальное решение управления моторикой непосредственно из исходных сенсорных входов. DeepMind разработал систему обучения, которая может учиться сложному поведению локомоции для широкого спектра N-ногих роботов, таких как двуногие, трехногие, четвероногие, шестиногие … включая колесные варианты (см. приложенное видео) DeepMind сделал это, не изменив функции вознаграждения для разных роботов. Их подход позволяет научиться управлять новыми роботами всего за пару часов. Суть подхода в том, что он многозадачен: эффективнее пытаться учиться сразу нескольким навыкам, а не учиться им последовательно.
Если новый подход DeepMind взлетит, - это будет революция в мире роботов. Ну а дальше будут пытаться реализовать п.5. Благо зацепки, как из примитивов универсального движения эволюционно получить примитивы мышления уже есть. И хотя это было пока что сделано только для дельфинов (для их локомоции в водной среде), но и с универсальным движением может получиться. И тогда случится революция AGI.