Обложка канала

LEFT JOIN

5709 @leftjoin

Канал Николая Валиотти об аналитике и визуализации данных, data science и BI

LEFT JOIN

4 года назад
Открыть в
👨‍🎨 Как работает DALL-E 2? 🖼 В одном из последних постов рассказали вам про новую AI-модель и поделились кучей ссылок с примерами её работы. Давайте попробуем разобраться, что за магия происходит в модели и как она создает совершенно новые изображения с помощью короткого текстового описания. 💭 Итак, если объяснять процессы, которые происходят в модели простым языком, то глобально их три: модель получает текстовое описание, которое декодируется и попадает в пространство текстовых эмбедингов (математический способ представления информации). Затем они попадают в пространство эмбедингов изображений, где идет поиск наилучшего совпадения. После этого полученный эмбединг декодируется и мы получаем изображение. Вуаля! 📺 В основе модели лежит модель CLIP, которая занимается прямо противоположным: подбирает наиболее точное описание к каждому изображению. Как вы понимаете, для обеих моделей совершенно необходимо огроменное количество данных, а именно пар (изображение–точное описание). Вручную такое сделать достаточно трудно (руки и глаза точно устанут), поэтому данные собраны со всего Интернета. 🧪 Также, при построении DALL-E 2 использовались диффузионные модели. Сейчас мы быстро постараемся это понять, если к этому моменту вы еще не перегружены информацией. Эти модели берут изображение и постепенно добавляют к нему различные шумы до тех пор пока изображение не меняется до неузнаваемости. Затем, они пытаются провернуть этот процесс задом наперед: воссоздать исходное изображение. Таким образом, модель учится самостоятельно генерировать изображения (или любую другую информацию, например, музыку). 🔗 Сила DALL-E 2 заключается в большом количестве парных данных (естественного языка–изображения), которые доступны в Интернете. Использование таких данных не только устраняет недочеты, вызванные трудоемким процессом ручной маркировки данных. В первую очередь, шумный и даже неконтролируемый характер таких данных лучше всего отражает реальные данные, к которым должны быть устойчивы модели глубокого обучения. Если все эти выводы кажутся вам непонятными или недостаточными, то в этом видео девушка еще более подробно (на примере схем и изображений) рассказывает о том, как именно работает DALL-E 2 и почему каждый этап обработки важен и незаменим.
LEFT JOIN

Совершенно удивительные достижения из мира AI Еще одна новость про AI-модель: DALL·E 2 — новая система искусственного интеллекта, которая может создавать реалистичные изображения и рисунки исходя из описания на естественном языке. Ну, то есть, вы даете на вход модели данные: “An astronaut riding a horse in a photorealistic style”, а получаете вот такое изображение ⚡️ А еще модель может: ▫️ добавлять и удалять элементы, принимая во внимание тени, отражения и текстуры ▫️ вдохновиться оригиналом картины, рисунка или фотографии и создать изображение в похожем стиле Модель уже очень занимательно повертели в этой статье. Брам Адамс тоже проверил, как работает модель: особенно интересно, как она придумывает постеры и обложки для музыкальных альбомов. Музыканты теперь могут вообще не тратить на то время, а лишь набрасывать идеи и поручать DALL·E всю креативную работу. У меня и моей команды совершенно нет слов, это настоящий прорыв в мире AI. Не терпится пощупать и проверить все своими руками (подали заявку, ждем)!

Telegram