MAGVIT: open source генеративный видео-трансформер 10 в 1
Единая модель MAGVIT способна выполнять 10 задач генерации видео, среди которых увеличение FPS, экстраполяция кадров, создание видео за пределами кадра, заполнение пропущенных участков видео и генерация видео по заданным условиям. MAGVIT улучшил результаты state-of-the-art подходов на трех бенчмарках генерации видео. На датасете Kinetics-600 MAGVIT показал улучшение на 39%.
Авторы разработали 3D-VQ архитектуру для квантизации видео с высоким качеством восстановления. Квантизация происходит с коэффициентом 4 по времени и в 64 раза по высоте и ширине с использованием кодовой книги из 1024 элементов. Модель обучалась на общедоступном наборе данных Something-Something-V2.
Работа авторов будет представлена на конференции CVPR 2023, код модели доступен на Github.
#StateoftheArt