Обложка канала

Neural Shit

35268 @NeuralShit

Проклятые нейронные сети

Neural Shit

3 года назад
Открыть в
🔥DeepFloyd IF: новая text-2-image модель StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source. Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5. Почему это круто? — IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL — Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост — FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный. Код выложили, веса ждем тут. И ждем подробной статьи от авторов. @ai_newz