Настоящие революции в мире ML происходят не так часто — что случилось что-то серьезное, можно понять по сообщениям в твиттере от ML-инженеров в стиле: «У меня просто руки опускаются теперь что-то делать», «Я не вижу смысла продолжать свое исследование» и тп.
Речь идет о задаче генерации картинки по тексту, и я про новую версию DALL•E от OpenAI, о которой кажется все уже написали.
Нейронка может работать в трех режимах:
✨ Генерировать картинку с нуля;
✨ Дорисовывать часть картинки;
✨ Сгенерировать новые версии картинки на входе.
Упрощенно, на пальцах, довольно сложно рассказать как работает этот подход (потому что на фразе «диффузионный декодер и диффузионную визуальную модель» обычные люди начинают плакать), но я подумаю над простым объяснением, как я делал тут.
Ниже будет пост, где я собрал результаты генерации из разных твиттер тредов и дописал запросы по которым эти картинки генерировались (их никто не дорабатывал в фотошопе, это сырой выход из нейронки – в разрешении 1024х1024).
А вот так выглядит…