Годный доклад о генерации изображений нейросетками еще в начале декабря прошел на IT-конференции Яндекса YaTalks.
Для тех, кто как я все пропустил - крутая статья по следам выступления спикеров из Яндекса, Сбера и Студии Артемия Лебедева.
Для нас с вами уж точно не секрет, что нейросети уже изменили мир и точно продолжат его менять и дальше. Все самые нереальные демонстрации, когда по текстовому описанию программа генерит изображение — результат работы диффузионных моделей. На них, кстати, основаны Stable Diffusion, MidJourney, DALL-E 2 - все мы их уже давно потестили.
Суть модели в том, что она совсем как человек, который в детстве смотрит картинки в книжках, а потом по этим образам рисует что-то своё.
Это все круто, но есть нюансы - например, как быть с авторским правом при генерации изображений? Стоит ли ограничивать модели на старте обучения? Кто такие промт-инженеры? Можно ли будет в будущем создать изображение по звуку?
В общем, статья довольно понятным языком расскажет о диффузорных моделях, почитайте на досуге. От меня лично лойс