fbpx

SANet: модель, которая переносит стиль с картины на изображение

Artificial Intelligence Research Institute в Корее опубликовали SANet — нейросетевую модель, которая накладывает на изображение стиль с картины. В нейросети можно регулировать параметр, который отвечает за то, насколько сильно модифицируется начальное изображение. Исследователи вводят identity loss как функцию потерь, чтобы лицо человека на начальном изображении оставалось отличимым.

Перенос стиля на изображение — одна из актуальных задач компьютерного зрения, для которой уже сейчас существуют решения. Проблема ранее предложенных подходов состоит в том, что модели сложно балансировать между паттернами стиля и содержанием начального изображения. Ранние подходы переносят стиль по частям (патчам), поэтому им сложно одновременно поддерживать глобальные и локальные паттерны стиля.

Что внутри нейросети

На вход Self-Attentional Network (SANet) принимает изображение человека и пример картины с тем стилем, который нужно наложить на изображение. Изображения проходят через VGG кодировщик. Декодер трансформирует объединенные фичи из двух SANet. Сами SANet задействуют механизм self-attention.

Нейросеть обучена так, чтобы минимизировать identity loss — разницу между оригинальной фотографией и сгенерированной фотографией. Таким образом, получается, что черты лица человека на сгенерированной фотографии сохраняются.

В качестве тренировочных данных для модели был использован MS-COCO (изображения людей) и WikiArt (картины). Оба датасета содержали около 80,000 изображений.

Пайплайн обучения модели

Оценка работы модели

Исследователи сравнили то, как SANet и три конкурирующие архитектуры справляются с задачей переноса стиля. В качестве конкурирующих архитектур были выбраны метод итеративной оптимизации от Gatys et al., WCT, AdaIN и Avatar-Net.

Пример сгенерированных разными подходами изображений и картина, на которую модель опиралась при генерации
Сравнение времени работы моделей