VQ-VAE-2: генерация реалистичных разноплановых изображений

Исследователи из DeepMind предложили использовать модифицированный вариационный автокодировщик для генерации правдоподобных разноплановых изображений. VQ-VAE-2 конкурирует по результатам с state-of-the-art подходами. Архитектура помогает избавиться от недостатков использования GAN-ов для генерации изображений.

Сейчас для генерации изображений стандартным подходом является использовать генеративные нейросети (GANs). Несмотря на их популярность, они имеют такие проблемы, как недостаток разнообразия сгенерированных изображений и остановка работы генератора, которая приводит к генерации части множеств изображений (mode collapse). Исследователи модифицировали Vector Quantized Variational AutoEncoder (VQ-VAE), чтобы решить эти проблемы.

Архитектура модели

Стандартную VQ-VAE модель можно представить как систему коммуникации кодировщика и декодировщика. Кодировщик преобразует изображение в латентные переменные, а декодировщик реконструирует изображение из латентных переменных.

VQ-VAE-2, вместо одного преобразования, делает два: на верхнем и нижнем уровнях. На верхнем уровне моделируются глобальные характеристики изображения, а на нижнем уровне, который зависит от результата верхнего, моделируются локальные характеристики. Предложенная модификация заключается в добавлении иерархичности.

Сам процесс обучения состоит из двух шагов:

  1. Сначала обучается VQ-VAE-2, чтобы закодировать изображения в скрытое дискретное пространство;
  2. Затем с помощью PixelCNN генерируется изображение

Такая структура позволяет генерировать более устойчивые и реалистичные изображения.

Двухступенчатый процесс обучения: архитектура автокодировщика (слева) и генератора (справа)

Оценка работы модели

Исследователи обучили проверяли модель на данных ImageNet 256 × 256 и FFHQ. Последний датасет состоит из 70000 высококачественных портретов людей с разнообразными внешними характеристиками. Несмотря на то, что генерация лиц считается менее сложной задачей, чем ImageNet, модель должна уметь запоминать такие зависимости, как цвет глаз. В качестве конкурирующей архитектуры была выбрана BigGAN deep. Ниже видно, что VQ-VAE-2 обладает более высокой точностью, чем конвенциональная генеративная нейросеть.

Перформанс моделей в зависимости от Classification Accuracy Score (CAS) на Imagenet
Отобранные примеры сгенерированных изображений

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

Разработчики из Alexa Research в Amazon опубликовали описание модели, которая распознает эмоции по интонации голоса человека. В качестве модели разработчики использовали автокодировщик, который позволяет обучаться на неразмеченных данных. Обычно классификация эмоций производится с помощью нейросети, которую обучили с учителем на размеченных данных. Нейросеть учится…

GAN из изображения человека синтезирует видео с ним

В Samsung AI и Сколково опубликовали работу, в которой нейросеть генерирует видео с человеком на основе одного или двух его статичных изображений. Модель выдает реалистичные результаты и сравнима по метрикам с state-of-the-art решениями. Архитектура нейросети Meta-learning часть модели включает в себя нейросеть, которая сопоставляет…

FUNIT: нейросеть для image-2-image трансформаций от NVIDIA

В Nvidia, Cornell и Aalto разработали нейросеть (FUNIT), которая преобразует изображение объекта из одного класса в другой (например, меняет породу собаки на изображении) и при этом требует минимального количества данных для обучения. FUNIT достигает state-of-the-art результатов и в части случаев обходит конкурирующие архитектуры. Обычно…

Google AI выпустила библиотеку с результатами исследования распутывания представлений

Google AI опубликовала библиотеку disentanglement_lib, которая содержит 10800 вариационных автоэнкодеров, обученных на семи датасетах. Эта библиотека призвана помочь исследователям по всему миру решить одну из главных проблем глубокого обучения — неспособность использовать многомерные данные для генерации полезных представлений методами без учителя. Один из подходов,…
vue ai

Vue.ai использует нейросети для генерации маркетинговых изображений товаров

Стартап Vue.ai, который использует GANы для генерации маркетинговых изображений и других задач ритейла, собрал 17 миллионов долларов от институциональных инвесторов. Среди инвесторов такие фонды, как Falcon Edge Capital, Sequoia Capital India и KDDI Innovation Fund’s Global Brain. Компания существует на рынке уже три года.…
FaceStyleGAN

Нейросеть FaceStyleGAN генерирует портреты из селфи в Snapchat

Исследователи из Snap Inc. и Чешского Технологического Университета обучили нейросеть, которая из фотографии пользователя генерирует портрет в желаемом стиле. Пользователь выбирает изображение портрета, на который нейросеть будет опираться при переносе стиля, и сеть в реальном времени генерирует портрет пользователя. Результаты FaceStyleGan сравнимы со state-of-the-art…

Нейросеть Fashion++ помогает в выборе образа

Исследователи из Cornell Tech, UT Austin и Geogia Tech представили нейросеть, которая так модифицирует фото образа, чтобы он соответствовал актуальным трендам. Модель состоить из нейросети, которая учится синтезировать предметы одежды по одному, формируя из них полноценный образ. Модель способна изменять фасон, текстуру, цвет, узор…
image approximation

Опубликован алгоритм аппроксимации изображений за счет геометрических фигур

Исследователи из Осло опубликовали алгоритм, который создает представления изображений, используя  геометрические фигуры. Алгоритм создан с целью максимально точно аппроксимировать изображения и для разработки новых художественных стилей. Изображения аппроксимируются прозрачными, перекрывающимися и геометрическими формами разных типов — многоугольниками, кругами, линиями. Алгоритм Все изображения (геномы) реализованы…
https://docs.google.com/document/d/1e2OPAL_V9lgAT4ObON8SzX2oPebjbo2PJao6QNqrIH8/edit

Нейросеть RawNet от Xiaomi генерирует высокачественную речь

Исследователи из компании Xiaomi представили end-to-end генератор звука RawNet. Он использует сеть кодера для извлечения характеристик звука и сеть голосовых сигналов (voder) для генерации речи. Эксперименты по задачам Copy-Synthesis показывают, что RawNet достигает качества LPCNet, но при этом имеет более простую архитектуру и быстрее…
code

В Google Brain разрабатывают нейросеть для автодополнения кода

Google Brain ведет разработку ИИ, который предсказывает изменения в коде исходя из прошлых изменений. Команда Google Brain выбрала неявную модель, которая по результатам тестов обеспечивает наилучшую общую производительность и масштабируемость из всех протестированных на данный момент моделей. Модель может быть адаптирована для улучшения систем автодополнения, которые…
В Google Brain смоделировали процесс отрисовки шрифтов

Google Brain смоделировала процесс отрисовки шрифтов

Ученые из Google Brain исследовали, как извлечь представления высокоуровневых характеристик объектов из векторных изображений, и использовали это для генерации шрифтов в формате SVG. Несмотря на текущие успехи в применении GANов для генерации объектов на изображениях, они все еще имеют ограничения. Одно из них —…
azimuth elevation gan

Сеть HoloGAN генерирует вид сбоку и сверху на основе 2D изображения

Группа исследователей предложила unsupervised модель GAN для восстановления 3D представлений из 2D изображений. Модель улучшила state-of-the-art результаты в генерации вида сбоку и сверху для предметов в датасетах Chairs и Cars. Особенности HoloGAN Большинство генеративных моделей используют 2D ядра сверток для генерации изображений и делают…

Исследователи из Стенфорда представили улучшенную модель для генерации вопросов к изображениям

Модель генерации вопросов к изображению, предложенная исследователями из Стенфордского университета, показала результаты лучше, чем существующие state-of-the-art модели IA2Q и V-IA2Q. Проблема и предыдущие исследования Ученые поставили перед собой задачу image-to-sequence генерации, когда на входе принимается картинка и желаемый тип ответа, а на выдается сгенерированный…
gan for music generation

GANSynth: создание музыки с помощью GAN

На конференции ICLR 2019 разработчики Google Magenta представили новый подход к синтезу аудио с помощью генеративно-состязательной нейронной сети. GANSynth позволяет генерировать музыку в 50 000 раз быстрее методов, основанных на авторегрессии, таких как WaveNet от DeepMind. В работе исследователи адаптировали модель WaveGAN и предложили…
gan python keras tutorial

Туториал: создание простой GAN на Python с библиотекой Keras

В этом туториале я расскажу о генеративно-состязательных нейронных сетях (GAN) не прибегая к математическим деталям модели. Далее будет показано, как написать собственную простую GAN на Python с Keras, которая сможет генерировать знаки. Перед вам перевод статьи Demystifying Generative Adversarial Nets (GANs), опубликованной на Datacamp,…
fake airbnb-min

Сайт генерирует несуществующие предложения квартир Airbnb, используя StyleGAN

Разработчик Кристофер Шмидт создал сайт, генерирующий несуществующие предложения квартир, которые выглядят как реальные профили из онлайн-сервиса бронирования Airbnb. На первый взгляд сайт действительно может ввести в заблуждение. Картинки, текст, описание квартиры и фотография хозяина созданы нейронной сетью. Изображения комнат и фотография хозяина генерируются нейросетью, обученной…
stylegan

StyleGAN для генерации новых лиц опубликована в открытом доступе

NVIDIA опубликовала код предобученной модели StyleGAN для генерации лиц, которые никогда не существовали. StyleGAN является state-of-the-art моделью с лучшими свойствами интерполяции и распутывания, способностью находить скрытые факторы вариации (определять положение лица и идентичность). Мы писали об анонсе StyleGAN 18 декабря прошлого года, но тогда NVIDIA…

GAN предсказывает следующий удар теннисиста и траекторию полета мяча

Исследователи из Австралии предложили метод, основанный на генеративных нейронных сетях, для предсказания местоположения мяча в теннисе во время следующего удара и прогнозирования действий игроков. Скорость движения мяча в большом теннисе находится в диапазоне от 200 до 250 км / час. Отслеживать и предсказывать следующие…
cyclegan

CycleGAN: превращение текстур Fortnite в PUBG

Перед вами перевод статьи о применении CycleGAN для переноса стиля изображений и дальнейшего применения в компьютерных играх. Автор статьи — Чинтан Триведи, ссылка на оригинал в конце текста. Если вы геймер, то наверняка слышали о двух самых популярных играх в жанре Королевская битва (Battle…
instagan

InstaGAN подменяет объекты на фотографиях без изменения фона

Ученые из Кореи разработали генеративную нейросеть, которая способна выполнять междоменное преобразование нескольких объектов на изображении (image-to-image translation) без искажения фона. Нейросеть InstaGAN превосходит методы, такие как CycleGAN и подобные, и показывает высокие результаты в задачах преобразования объектов на фото: замены овец на жирафов, брюк…