FUNIT: нейросеть для image-2-image трансформаций от NVIDIA

В Nvidia, Cornell и Aalto разработали нейросеть (FUNIT), которая преобразует изображение объекта из одного класса в другой (например, меняет породу собаки на изображении) и при этом требует минимального количества данных для обучения. FUNIT достигает state-of-the-art результатов и в части случаев обходит конкурирующие архитектуры.

Обычно нейросети для того, чтобы выдавать реалистичные результаты, требуются большие объемы данных для обучения. Сбор и разметка данных на текущий момент являются ресурсоемкими. При этом люди способны принимать решения на основе ограниченного количества данных благодаря высокой обобщающей способности. Поэтому одним из направлений в глубоком обучении является Few-Shot Learning(FSL). FSL направление фокусируется на увеличении обобщающей способности моделей. FUNIT позиционируется как few-shot модель, которой для преобразования объекта на изображении нужна всего пара примеров.

Архитектура FUNIT

Обучающая выборка состоит из изображений объектов, которые принадлежат к разным классам. Модель учится конвертировать объект одного класса в объект другого класса. Обученной модели необходима пара примеров изображений класса, в который хотим преобразовать, чтобы сгенерировать измененное изображение. FUNIT принимает на вход изображение, которое нужно изменить, и примеры изображений того класса, в который нужно преобразовать.

Модель основана на GAN архитектуре. Сначала производится энкодинг входного изображения (конволюционные слои и ResBlocks), одновременно кодируются изображения примеров (конволюционные слои и Average Pooling). Они поступают в декодер. На выходе получается сгенерированное изображение.

Визуализация структуры генеративной модели

 

Сравнение результатов работы нейросетей

Исследователи сравнивали работу нейросети на 4-х датасетах: Animal Faces, Birds, Flowers, Foods. Чтобы определить границы объекта на изображении исследователи использовали Faster RCNN. FUNIT сравнивали с StarGAN, MUNIT, UNIT и CycleGAN.  На отдельных примерах ниже видно, что FUNIT выдает более реалистичные результаты.

Примеры работы FUNIT и конкурирующих архитектур. Input — входные изображения, Class image y_1 и y_2 — примеры целевого класса, остальные колонки — сгенерированные разными архитектурами изображения

Ограничения работы

Несмотря на реалистичность преобразований объектов похожих классов, FUNIT плохо справляется с преобразованием в класс, сильно отличающийся от начального.

Примеры неудачных преобразований FUNIT

InformAI классифицирует диагноз пациента на основе сканов носовой пазухи и мозга

Стартап InformAI тренирует нейронную сеть классифицировать диагнозы и характеристики здоровья пациента на основе изображений мозга и носовой пазухи (синуса) и уже текущей весной представит готовый продукт. Проект входит в число Nvidia AI Inception Partners. Алгоритм отвечает на вопрос, является ли изображение инфекцией или особенностью…
Curve-GCN annotation tool

Curve-GCN: open source инструмент для интерактивной разметки изображений

Исследователи из University of Toronto, Vector Institute и NVIDIA представили инструмент для упрощения процесса разметки объектов. Они обучили нейросеть Curve-GCN определять границы присутствующих на изображении объектов. Предложенная модель как минимум в два раза быстрее существующих. Проблема разметки данных актуальна для задач классификации во всех…

Nvidia представила набор инструментов для радиологов Clara AI

Nvidia продолжает фокусироваться на разработке аппаратного и программного обеспечения с ИИ для врачей. На GTC 2019 компания представила платформу Clara AI, которая содержит набор инструментов для разработки медицинского ПО и предобученные модели для радиологов. Clara AI для радиологов Глубокое обучение сегодня имеет наибольший потенциал…

Нейросеть GauGAN превращает наброски в реалистичные фотографии

Нейронная сеть GauGAN, разработанная Nvidia, позволяет преобразовывать схематичные рисунки в реалистичные изображения природных сцен. Компания представила разработку на конференции GPU Technology Conference 2019, посвященную машинному обучению и новым решениям для разработчиков ИИ. GauGAN может стать мощным инструментом для создания виртуальных миров для множества специалистов:…

Nvidia запустила редактор фотографий AI Playground

На конференции GPC 2019 Nvidia анонсировала запуск AI Playground — веб-платформы для редактирования фотографий с помощью нейронных сетей. В компании отмечают, что нацелены сделать свои продукты более доступными для широкой аудитории. Интерфейс платформы AI Playground очень прост и экспериментировать с обработкой фото могут все…
stylegan

StyleGAN для генерации новых лиц опубликована в открытом доступе

NVIDIA опубликовала код предобученной модели StyleGAN для генерации лиц, которые никогда не существовали. StyleGAN является state-of-the-art моделью с лучшими свойствами интерполяции и распутывания, способностью находить скрытые факторы вариации (определять положение лица и идентичность). Мы писали об анонсе StyleGAN 18 декабря прошлого года, но тогда NVIDIA…
nvidia роборука на кухне IKEA

Робот Nvidia учится убираться и готовить на кухне IKEA

Nvidia открывает новую робототехническую лабораторию в Сиэтле, чтобы сделать роботов более умными и эффективными. В качестве обучающей площадки компания выбрала стандартную кухню IKEA. Промышленные роботы пока ещё глупы и опасны, не смотря на последние достижения в области машинного обучения. Они выполняют отдельные сложные действия,…
автопилот nvidia

Nvidia анонсировала выпуск первого коммерческого автопилота

На выставке CES 2019 Nvidia анонсировала выпуск автопилота и софта для создания автомобилей с уровнем автономности 2+. Автопилот будет доступен в 2020, а новая версия пакета программного обеспечения для разработчиков выйдет уже в течение нескольких недель.  Уровень 2+ означает, что робомобиль самостоятельно справляется в благоприятной…
hardware gpu machine learning

Как выбрать графический процессор для глубокого обучения

Глубокое обучение требует больших вычислительных ресурсов, поэтому очень важно, какой графический процессор (видеокарту) вы выберете для своих исследований. Надежный GPU позволит быстро вычислять оптимальные архитектуры и настройки глубоких сетей, и проводить эксперименты за дни вместо месяцев, часы вместо дней, минуты вместо часов. Перевод статей…
stylegan

Нейросеть StyleGAN генерирует идеальные новые лица с помощью алгоритмов переноса стиля

Исследователи Nvidia опубликовали альтернативную архитектуру GAN, основанную на алгоритмах переноса стиля (style transfer). StyleGAN отделяет атрибуты высокого (например, позы и лица) и низкого уровня (веснушки и волосы) и генерирует новое изображение без учителя. Результат работы новой GAN трудно отличить от реальных изображений:   Сеть…
GAN - Nvidia sreda ai

NVidia представили городскую среду, созданную генеративной нейронной сетью

Команда Nvidia обучила генеративную нейросеть (GAN) рендерингу окружающей среды после обучения на реальных видео, снятых в разных городах. Этот прорыв позволит разработчикам и художникам создавать новые интерактивные 3D-миры в виртуальной реальности, путем обучения нейронной сети на реальных видео. Это снизит затраты и время, необходимое…

Нейросеть создает МРТ-снимки мозга для тренировки алгоритмов диагностики

Разработчикам нейронных сетей для оценки медицинских снимков не хватает точных и надёжных данных для тренировки моделей машинного обучения. Исследователи NVIDIA, клиники Майо и Центра исследования клинических данных представили нейросеть для создания снимков МРТ головного мозга, которые затем можно использовать для обучения алгоритмов диагностики. «Наборы данных часто несбалансированы, поскольку патологические результаты обычно редки, что…
Turing SDK

Архитектура Turing от Nvidia: что она дает и как получить максимум производительности

Архитектура Turing – одно из главных достижений в компьютерной графике за 20 лет, по заявлению самой Nvidia. Turing SDK теперь доступен для разработчиков. Дизайнеры и художники могут создавать контент с улучшенной графикой, фотореалистичным рендерингом, использовать AI для обработки изображений и видео в режиме реального времени…

Nvidia запустит платформу для разработчиков медицинских приложений

NVIDIA Clara — комбинация аппаратного и программного обеспечения для разработчиков медицинских приложений с искусственным интеллектом.  Clara SDK основана на вычислительном модуле NVIDIA Xavier AI и графических процессорах NVIDIA Turing и содержит набор библиотек для вычислений и создания моделей машинного обучения в сфере медицины. Платформу можно использовать для обработки…
vid2vid-video-to-video-synthesis-e1535641547242

Vid2Vid — GAN для подмены деталей и свойств видеопотока

Исследователи из NVIDIA и лаборатории Computer Science & AI из MIT представили новый метод синтеза video-to-video, который показывает впечатляющие результаты. Предложенный метод — Vid2Vid — позволяет синтезировать высококачественные, фотореалистичные, плавные видео из различных входных данных, включая маски сегментации, скетчи и образы. Предыдущие работы Утверждая,…
tensorrt tutorial

Туториал Nvidia для разработчиков: оптимизация RNN с помощью TensorRT

Видео демонстрирует, как настроить простую рекуррентную нейронную сеть (RNN) на основе языковой модели на уровне символов. Хотя этот образец построен с использованием C ++, вы можете реализовать его на Python с помощью TensorRT Python API. При помощи NVIDIA TensorRT вы можете быстро оптимизировать и…
нейросеть nvidia удаляет шум с фото

Нейросеть от Nvidia научилась удалять шум с фотографий

Nvidia представили новый алгоритм Noise2Noise, который за несколько секунд очищает фотографию от артефактов, шумов, текста, и автоматически улучшает её. Метод подходит для реконструкции МРТ-снимков и фотографий, сделанных при плохом освещении, т.е. в случаях когда не существует «чистого» исходного изображения. Нейросеть обучили на базе 50…

PGGAN — прогрессивная генеративная нейросеть от Nvidia

Генеративно-состязательные нейросети — одна из наиболее перспективных разработок в области глубокого обучения. GANs — это генеративные сети, которые не так давно приобрели популярность в сфере машинного обучения. Комбинируя характерные особенности входных данных, они создают принципиально новые объекты, неотличимые от реальных. За последние несколько лет генеративные нейросети привлекли внимание…
Image Inpainting for Irregular Holes Using Partial Convolutions

Реконструкция фотографий методом частичной свертки от Nvidia

“Image inpainting” — задача заполнения пробелов в изображении (реконструкция, дорисовка). Цель работы, проделанной авторами — предложить модель для реконструкции изображений, которая надежно работает на нерегулярных пробелах и создает семантически значимые прогнозы, которые сочетаются с остальной частью изображения без необходимости дополнительных операций пост-обработки или смешивания. Модель используется со многими…
A Synthetic Dataset by Nvidia for Pose Estimation

“Falling Things”: синтетический датасет от NVidia

Нейросети критичны к объемам выборки, которая необходима для обучения. Большие датасеты далеко не так доступны, как хотелось бы разработчикам. На сбор информации уходит много времени, это дорого, и полученные данные не всегда точны. Поэтому много проектов сегодня посвящены исключительно работе над созданием датасетов. Датасет…