InstaGAN подменяет объекты на фотографиях без изменения фона

instagan

Ученые из Кореи разработали генеративную нейросеть, которая способна выполнять междоменное преобразование нескольких объектов на изображении (image-to-image translation) без искажения фона. Нейросеть InstaGAN превосходит методы, такие как CycleGAN и подобные, и показывает высокие результаты в задачах преобразования объектов на фото: замены овец на жирафов, брюк на юбки и др. Результаты далеко не идеальные, но намного превосходят современные методы.

Примеры работы InstaGAN
Примеры работы InstaGAN

Метод

Авторы статьи первыми предложили метод для image-to-image преобразования объектов в сложных условиях:

  • замена нескольких объектов на изображении;
  • замена объектов, которые сильно отличаются по размеру и форме.

Задача — подменять объекты на изображении без изменения фона.

instagan architecture
Архитектура сети — объекты подменяются по очереди по одному

Разработчики используют маски сегментации объектов (группы пикселей, которые принадлежат одному и тому же объекту) для получения информации об объекте. Это позволяет заменять объект более точно, потому что маски содержат только информацию о границах и игнорируют несущественную, например, цвет.

Основной вклад исследователей — расширенная архитектура, которая преобразует объекты по-очереди и использует context loss и новый метод последовательного mini-batch вывода, который позволяет обрабатывать большее количество атрибутов с небольшой памятью графического процессора.

InstaGAN объединяет маски сегментации и атрибуты объектов и заменяет каждый объект отдельно, стремясь сохранить фоновый контекст.

Результаты

Исследователи предоставили InstaGAN два класса из различных наборов данных, включая MHP, MS COCO и CCP. InstaGAN показал лучшие результаты по сравнению с CycleGAN в создании новых форм целевых объектов при сохранении исходного контекста. InstaGAN не искажает фон и сохраняет форму целевого объекта.

В тестах InstaGAN заменил жирафов на овец, а чашки на бутылки. В других примерах брюки на модели были заменены на юбки — алгоритм успешно сгенерировал изображение обнаженных человеческих ног.

Результаты опубликованы в работе InstaGAN: Instance-Aware Image-to-Image Translation. Код доступен на GitHub. Разработчики отмечают, что их метод может использоваться в других междоменных задачах генерации, где доступна структурированная дополнительная информация, таких как машинный перевод или генерация видео.

instagan cyclegan comparison
Результаты в сравнении с CycleGAN
instagan results
Еще результаты

Нейросеть создает МРТ-снимки мозга для тренировки алгоритмов диагностики

Разработчикам нейронных сетей для оценки медицинских снимков не хватает точных и надёжных данных для тренировки моделей машинного обучения. Исследователи NVIDIA, клиники Майо и Центра исследования клинических данных представили нейросеть для создания снимков МРТ головного мозга, которые затем можно использовать для обучения алгоритмов диагностики. «Наборы данных часто несбалансированы, поскольку патологические результаты обычно редки, что…
vid2vid-video-to-video-synthesis-e1535641547242

Vid2Vid — GAN для подмены деталей и свойств видеопотока

Исследователи из NVIDIA и лаборатории Computer Science & AI из MIT представили новый метод синтеза video-to-video, который показывает впечатляющие результаты. Предложенный метод — Vid2Vid — позволяет синтезировать высококачественные, фотореалистичные, плавные видео из различных входных данных, включая маски сегментации, скетчи и образы. Предыдущие работы Утверждая,…
everybody dance now

«Танцуют все!» — невероятное качество Motion Transfer для видео

Плохо умеете танцевать? Больше не проблема! Удивите своих друзей ошеломляющим видео, где вы танцуете, как суперзвезда. Исследователи из Беркли предложили новый способ motion trasfer для видео. Они утверждают, что способны перенести исполнение танца с исходного видео на целевое всего за несколько минут. Предыдущие работы За последние…
Unsupervised Attention-Guided Image-to-Image Translation

Неконтролируемое преобразование изображений с механизмом внимания

Преобразование «image-to-image» – метод отображения фото из исходного домена в целевой. Метод включают в себя раскраску изображений, восстановление со сверхвысоким разрешением, перенос стиля, адаптацию домена и увеличение плотности данных. Для большинства подходов требуется, чтобы данные доменов были спарены или согласованы друг с другом, как,…
Neural style transfer

TwinGAN  — междоменный перенос человеческих портретов

С тех пор как Джерри Ли, автор этой статьи, начал смотреть аниме, одна мысль не давала ем покоя: он просто не умеет рисовать. После многочисленных попыток, которые закончились “уничтожением” любимых персонажей, он сдался… пока не начал заниматься машинным обучением. В наше время ИИ играет…
Edge2Shoes

XOGAN: преобразование одного изображения в несколько

Тема генерации изображений становится всё популярнее в последние несколько лет. Многие задачи компьютерного зрения, включая восстановление изображений (image inpainting), передачу стиля изображения (style transfer), раскраску (colorization), можно рассматривать как преобразование изображений (image translation). Преобразование изображений может быть определено следующим образом. Пусть дано изображение XS,…