Исследователи предлагают мультизадачный фреймворк, который решает задачи оценки 2D и 3D поз из изображений и классификации действий по видеозаписи. Одна архитектура справляется с обеими задачами на уровне state-of-the-art подходов. При этом модель на инференсе обрабатывает более 100 кадров в секунду.