TargetCLIP
Передача сущности на основе изображений с помощью CLIP
Если упрощенно, это нейросетевая модель которой вы скармливаете на вход два разных лица, а на выходе получаете третье, которое собирает стилистические особенности первого наложенные на второе.
https://github.com/hila-chefer/TargetCLIP