👨🎨 Как работает DALL-E 2? 🖼
В одном из последних постов рассказали вам про новую AI-модель и поделились кучей ссылок с примерами её работы. Давайте попробуем разобраться, что за магия происходит в модели и как она создает совершенно новые изображения с помощью короткого текстового описания.
💭 Итак, если объяснять процессы, которые происходят в модели простым языком, то глобально их три: модель получает текстовое описание, которое декодируется и попадает в пространство текстовых эмбедингов (математический способ представления информации). Затем они попадают в пространство эмбедингов изображений, где идет поиск наилучшего совпадения. После этого полученный эмбединг декодируется и мы получаем изображение. Вуаля!
📺 В основе модели лежит модель CLIP, которая занимается прямо противоположным: подбирает наиболее точное описание к каждому изображению. Как вы понимаете, для обеих моделей совершенно необходимо огроменное количество данных, а именно пар (изображение–точное описание). Вручную такое сделать достаточно…