🧠 Imagen Video
[Google Brain]
Ответ Гугла на Make-a-Video от Меты не заставил себя долго ждать. Результаты кайфовые. Но и супервижена эта модель потребовала больше. Make-a-scene использовала неразмеченные видео для обучения, а вот для Image Video индусам пришлось попотеть, размечая видео текстовыми описаниями.
В подробности архитектуры вдаваться смысла нет, это нужно читать в статье. Скажу только, что там сначала из текстового эмбеддинга энкодера T5 получается 16 фреймов в разрешении 48×24 с 3 fps, а затем это апскейлится целой серией диффузионных моделей в итоговое видео из 128 фреймов 1280×768 и 24 fps.
То есть на выходе – 5.4 сек видео в высоком разрешении!
Ваши ставки господа: когда мы будем генерировать ролики в диффузионном тиктоке по заказу? "Девочка танцует в стиле техно. Сделай чтобы было красиво. Пожалуйста."
❱❱ Сайт проекта@ai_newz