VQ-VAE-2: генерация реалистичных разноплановых изображений

Исследователи из DeepMind предложили использовать модифицированный вариационный автокодировщик для генерации правдоподобных разноплановых изображений. VQ-VAE-2 конкурирует по результатам с state-of-the-art подходами. Архитектура помогает избавиться от недостатков использования GAN-ов для генерации изображений.

Сейчас для генерации изображений стандартным подходом является использовать генеративные нейросети (GANs). Несмотря на их популярность, они имеют такие проблемы, как недостаток разнообразия сгенерированных изображений и остановка работы генератора, которая приводит к генерации части множеств изображений (mode collapse). Исследователи модифицировали Vector Quantized Variational AutoEncoder (VQ-VAE), чтобы решить эти проблемы.

Архитектура модели

Стандартную VQ-VAE модель можно представить как систему коммуникации кодировщика и декодировщика. Кодировщик преобразует изображение в латентные переменные, а декодировщик реконструирует изображение из латентных переменных.

VQ-VAE-2, вместо одного преобразования, делает два: на верхнем и нижнем уровнях. На верхнем уровне моделируются глобальные характеристики изображения, а на нижнем уровне, который зависит от результата верхнего, моделируются локальные характеристики. Предложенная модификация заключается в добавлении иерархичности.

Сам процесс обучения состоит из двух шагов:

  1. Сначала обучается VQ-VAE-2, чтобы закодировать изображения в скрытое дискретное пространство;
  2. Затем с помощью PixelCNN генерируется изображение

Такая структура позволяет генерировать более устойчивые и реалистичные изображения.

Двухступенчатый процесс обучения: архитектура автокодировщика (слева) и генератора (справа)

Оценка работы модели

Исследователи обучили проверяли модель на данных ImageNet 256 × 256 и FFHQ. Последний датасет состоит из 70000 высококачественных портретов людей с разнообразными внешними характеристиками. Несмотря на то, что генерация лиц считается менее сложной задачей, чем ImageNet, модель должна уметь запоминать такие зависимости, как цвет глаз. В качестве конкурирующей архитектуры была выбрана BigGAN deep. Ниже видно, что VQ-VAE-2 обладает более высокой точностью, чем конвенциональная генеративная нейросеть.

Перформанс моделей в зависимости от Classification Accuracy Score (CAS) на Imagenet
Отобранные примеры сгенерированных изображений

Google AI выпустила библиотеку с результатами исследования распутывания представлений

Google AI опубликовала библиотеку disentanglement_lib, которая содержит 10800 вариационных автоэнкодеров, обученных на семи датасетах. Эта библиотека призвана помочь исследователям по всему миру решить одну из главных проблем глубокого обучения — неспособность использовать многомерные данные для генерации полезных представлений методами без учителя. Один из подходов,…

Нейросеть Fashion++ помогает в выборе образа

Исследователи из Cornell Tech, UT Austin и Geogia Tech представили нейросеть, которая так модифицирует фото образа, чтобы он соответствовал актуальным трендам. Модель состоить из нейросети, которая учится синтезировать предметы одежды по одному, формируя из них полноценный образ. Модель способна изменять фасон, текстуру, цвет, узор…
image approximation

Опубликован алгоритм аппроксимации изображений за счет геометрических фигур

Исследователи из Осло опубликовали алгоритм, который создает представления изображений, используя  геометрические фигуры. Алгоритм создан с целью максимально точно аппроксимировать изображения и для разработки новых художественных стилей. Изображения аппроксимируются прозрачными, перекрывающимися и геометрическими формами разных типов — многоугольниками, кругами, линиями. Алгоритм Все изображения (геномы) реализованы…
azimuth elevation gan

Сеть HoloGAN генерирует вид сбоку и сверху на основе 2D изображения

Группа исследователей предложила unsupervised модель GAN для восстановления 3D представлений из 2D изображений. Модель улучшила state-of-the-art результаты в генерации вида сбоку и сверху для предметов в датасетах Chairs и Cars. Особенности HoloGAN Большинство генеративных моделей используют 2D ядра сверток для генерации изображений и делают…

Нейросеть GauGAN превращает наброски в реалистичные фотографии

Нейронная сеть GauGAN, разработанная Nvidia, позволяет преобразовывать схематичные рисунки в реалистичные изображения природных сцен. Компания представила разработку на конференции GPU Technology Conference 2019, посвященную машинному обучению и новым решениям для разработчиков ИИ. GauGAN может стать мощным инструментом для создания виртуальных миров для множества специалистов:…

Nvidia запустила редактор фотографий AI Playground

На конференции GPC 2019 Nvidia анонсировала запуск AI Playground — веб-платформы для редактирования фотографий с помощью нейронных сетей. В компании отмечают, что нацелены сделать свои продукты более доступными для широкой аудитории. Интерфейс платформы AI Playground очень прост и экспериментировать с обработкой фото могут все…
gan фейковые фотографии

Тест: Сможете распознать фейковые фото, созданные GAN?

В 2014 году Ян Гудфеллоу представил идею генеративно-состязательных сетей или GAN. Они называются «генеративными», потому что получают на выходе изображения, а «состязательными» — потому что представляют собой две сети, конкурирующие друг с другом. Первая старается обмануть вторую, создавая примеры фото, а вторая пытается отличить…
GAN Paint Dissection

Исследователи MIT-IBM Watson AI Lab показали, что GAN понимает основы композиции

Генеративные нейросети (GAN) продемонстрировали способность создавать фотореалистичные изображения. Однако неизвестно, изучают ли сети композицию или работают за счет воспроизведения пиксельных паттернов. Компьютер может рисовать сцену двумя способами: самостоятельно составлять композицию из изученных объектов, запоминать изображение и воспроизводить его. Приложение GAN Paint и метод GAN…

GAN применили для подделки отпечатков пальцев

Учёные из Нью-Йоркского университета создали DeepMasterPrints — нейронную сеть, которая генерирует изображения отпечатков пальцев, подходящих большому количеству людей. Потенциально технология может подорвать работу биометрических систем контроля доступа, которые используют для идентификации пользователя только часть отпечатка. Так работает, например, разблокировка смартфона. Как работает DeepMasterPrints Исследователи…

GAN не справляется с генерацией оптических иллюзий

Нейронные сети хорошо показывают себя в задачах распознавания лиц и объектов на изображениях. Им под силу даже генерация реалистичных изображений. Ученые предположили, что это сработает и в случае с оптическими иллюзиями. Однако распознавание и создание иллюзий оказалось сложной задачей для алгоритмов компьютерного зрения. Датасеты…
вариационный автоэнкодер vae

Как работает вариационный автоэнкодер (VAE)

В противоположность использованию нейросетей в качестве регрессоров или классификаторов, вариационный автоэнкодер (Variational Autoencoder – VAE) — генеративная модель, которая находит применение во многих областях исследований: от генерации новых человеческих лиц до создания полностью искусственной музыки. Эта статья рассказывает о том, что такое вариационный автоэнкодер,…

Нейросеть создает МРТ-снимки мозга для тренировки алгоритмов диагностики

Разработчикам нейронных сетей для оценки медицинских снимков не хватает точных и надёжных данных для тренировки моделей машинного обучения. Исследователи NVIDIA, клиники Майо и Центра исследования клинических данных представили нейросеть для создания снимков МРТ головного мозга, которые затем можно использовать для обучения алгоритмов диагностики. «Наборы данных часто несбалансированы, поскольку патологические результаты обычно редки, что…
автоэнкодер

Автоэнкодеры: типы архитектур и применение

Autoencoder (автокодер, автоэнкодер, AE) — нейронная сеть, которая копирует входные данные на выход. По архитектуре похож на персептрон. Автоэнкодеры сжимают входные данные для представления их в latent-space (скрытое пространство), а затем восстанавливают из этого представления output (выходные данные). Цель — получить на выходном слое отклик, наиболее близкий…
A Synthetic Dataset by Nvidia for Pose Estimation

“Falling Things”: синтетический датасет от NVidia

Нейросети критичны к объемам выборки, которая необходима для обучения. Большие датасеты далеко не так доступны, как хотелось бы разработчикам. На сбор информации уходит много времени, это дорого, и полученные данные не всегда точны. Поэтому много проектов сегодня посвящены исключительно работе над созданием датасетов. Датасет…