Neural Shit(@NeuralShit). 🧠 Imagen Video [Google Brain] Ответ Гугла на Make-a-Video от Меты не заставил себя долго жда

🧠 Imagen Video [Google Brain] Ответ Гугла на Make-a-Video от Меты не заставил себя долго ждать. Результаты кайфовые. Но и супервижена эта модель потребовала больше. Make-a-scene использовала неразмеченные видео для обучения, а вот для Image Video индусам пришлось попотеть, размечая видео текстовыми описаниями. В подробности архитектуры вдаваться смысла нет, это нужно читать в статье. Скажу только, что там сначала из текстового эмбеддинга энкодера T5 получается 16 фреймов в разрешении 48×24 с 3 fps, а затем это апскейлится целой серией диффузионных моделей в итоговое видео из 128 фреймов 1280×768 и 24 fps. То есть на выходе – 5.4 сек видео в высоком разрешении! Ваши ставки господа: когда мы будем генерировать ролики в диффузионном тиктоке по заказу? "Девочка танцует в стиле техно. Сделай чтобы было красиво. Пожалуйста." ❱❱ Сайт проекта @ai_newz