Новый метод обучения с подкреплением, разработанный Tinkoff Research, поможет роботам исследовать неизвестный окружающий мир и не погибнуть при этом исследовании. Метод получил название SAC-RND (Soft Actor Critic — Random Network Distillation). Он работает 20 раз быстрее и надежнее, чем аналогичные разработки крупнейших ИИ-компаний.