Обложка канала

LEFT JOIN

5709 @leftjoin

Канал Николая Валиотти об аналитике и визуализации данных, data science и BI

LEFT JOIN

4 года назад
Открыть в
👨‍🎨 DALL-E не всемогущ? 🖌 Мы уже рассказывали вам про AI-модель, которая генерирует удивительные (и очень точные!) изображения на основе текстового описания. Сегодня нам хочется чуть поумерить всеобщие восторги и разобрать некоторые ограничения модели, которые не видны на первый взгляд. 📍Недостаток информации: Иногда модели нужно давать очень много уточнений, чтобы получить то, что нужно 📍Трудности в понимании контекста: В то же время, когда описание слишком длинное, модель чаще ошибается и хуже оценивает контекст (особенно, со словами, которые имеют несколько разных значений) 📍Никто не может знать всего: DALL-E может попросту не знать (не иметь никаких данных) о том, что вы хотите получить 📍У всего есть предел: Модель не может работать со слишком длинными описаниями с большим количеством дополнений 📍Все смешалось в доме Облонских: Модель может смешивать описания и присваивать определенные черты не тем объектам, которым нужно 📍Странные изображения: Если вы хотите создать изображение с совершенно разными (несочетающимися) деталями, то модель вероятнее всего вас не поймет 📍Художник, а не писатель: если вы хотите сгенетировать изображение с текстом или подписью, буквы могут быть ненастоящими 📍И, точно, не математик: Если вы хотите получить более 4 обьектов на изображении, то по мере роста числа обьектов, вероятность получить нужное количество неуклонно падает 📍Лица всем художникам даются с трудом: Зачастую лица людей на изображениях выглядят неправдоподобно, как у сломанной куклы или робота Если какое-то из ограничений осталось не вполне понятным и вообще таковым не кажется, то в этом треде есть визуальные объяснения, которые помогают понять, в чем же все-таки дело. Конечно, все эти нюансы никак не отменяют того, что это самая качетсвенная современная модель для создания и преобразования изображений. Просто всегда есть куда стремиться и что улучшить, не так ли?
LEFT JOIN

👨‍🎨 Как работает DALL-E 2? 🖼 В одном из последних постов рассказали вам про новую AI-модель и поделились кучей ссылок с примерами её работы. Давайте попробуем разобраться, что за магия происходит в модели и как она создает совершенно новые изображения с помощью короткого текстового описания. 💭 Итак, если объяснять процессы, которые происходят в модели простым языком, то глобально их три: модель получает текстовое описание, которое декодируется и попадает в пространство текстовых эмбедингов (математический способ представления информации). Затем они попадают в пространство эмбедингов изображений, где идет поиск наилучшего совпадения. После этого полученный эмбединг декодируется и мы получаем изображение. Вуаля! 📺 В основе модели лежит модель CLIP, которая занимается прямо противоположным: подбирает наиболее точное описание к каждому изображению. Как вы понимаете, для обеих моделей совершенно необходимо огроменное количество данных, а именно пар (изображение–точное описание). Вручную такое сделать достаточно…

Telegram