NeuroHive - Нейронные сети(@neurohive). MAGVIT: open source генеративный видео-трансформер 10 в 1 Единая модель MAGVIT способна выполнять 1

MAGVIT: open source генеративный видео-трансформер 10 в 1 Единая модель MAGVIT способна выполнять 10 задач генерации видео, среди которых увеличение FPS, экстраполяция кадров, создание видео за пределами кадра, заполнение пропущенных участков видео и генерация видео по заданным условиям. MAGVIT улучшил результаты state-of-the-art подходов на трех бенчмарках генерации видео. На датасете Kinetics-600 MAGVIT показал улучшение на 39%. Авторы разработали 3D-VQ архитектуру для квантизации видео с высоким качеством восстановления. Квантизация происходит с коэффициентом 4 по времени и в 64 раза по высоте и ширине с использованием кодовой книги из 1024 элементов. Модель обучалась на общедоступном наборе данных Something-Something-V2. Работа авторов будет представлена на конференции CVPR 2023, код модели доступен на Github. #StateoftheArt