NeuroHive - Нейронные сети(@neurohive). Исследователи Университета Висконсин-Мэдисон представили text-to-image диффузную модель PACGen (Pers

Исследователи Университета Висконсин-Мэдисон представили text-to-image диффузную модель PACGen (Personalized and Controllable Text-to-Image Generation) для переноса объекта с изображения на новую сцену, сгенерированную по текстовой подсказке. Для этого требуется подать на вход несколько изображений объекта, текстовую подсказку с описанием новой сцены и выделить область, в которую следует поместить объект. Исследователи объединили две open source модели, построенных на архитектуре Stable Diffusion. В результате получилась новая модель, точно контролирующая расположение и размер выбранного объекта на новой сцене. Метод регионально-управляемой выборки обеспечил сохранение качества и достоверности сгенерированных изображений на выходе. PACGen обучилась разделять идентичность объекта и пространственную информацию для создания персонализированных изображений. Потенциал модели огромен, например, дизайнеры рекламы могут размещать свою продукцию в любом желаемом месте на рекламном баннере. #StateoftheArt