Mesh R-CNN: нейросеть, которая моделирует 3D форму объектов

Mesh R-CNN — это нейросетевая архитектура, которая для объектов входного изображения предсказывает их форму. Модель была описана в работе от Facebook AI Research (FAIR). По метрикам Mesh R-CNN обходит существующие state-of-the-art подходы по моделированию 3D формы объектов.

Последние исследования в компьютерном зрении фокусировались на распознавании объектов в 2D пространстве. В большинстве работ игнорировалась 3D структура объектов. Ранние модели, предсказывающие 3D форму объектов, не были обучены определять форму на реальных изображениях для множества объектов одновременно. Исследователи объединили последние решения из обоих задач и представили Mesh R-CNN.

Модель принимает на вход изображение, классифицирует объекты на изображении и для всех объектов определяет их форму в формате полигональной сетки (mesh). Чтобы ухватить разнообразие форм объектов, модель сначала предсказывает воксели объекта, которые затем преобразуются в сетку. Полигональная сетка — это понятие из 3D моделирования, которое используется для определения совокупности вершин, рёбер и граней, которые описывают форму объекта в 3D пространстве.

Схема того, как работает модель

Архитектура модели

Mask R-CNN — это стандартный подход для распознавания объектов на 2D изображении. Mesh R-CNN — это end-to-end модель, которая расширяет Mask R-CNN с помощью блока для предсказания полигональной сетки. Модель была обучена на датасете Pix3D.

Процесс обучения модели:

  1. Стандартная Mask R-CNN предсказывает класс объекта, его границы на изображении и 2D маску;
  2. Для объекта определяется его приблизительная форма с помощью блока с предсказанием вокселей;
  3. Приблизительная форма уточняется с помощью графовой сверточной нейросети и дополнительных модификаций;
  4. На выходе отдается сетка для объекта
Визуализация процесса обучения модели

Оценка работы модели

Блок предсказания формы (mesh predictor) валидировался на датасете ShapeNet. Затем результаты модели сравнивались с результатами конкурирующих архитектур на данных Pix3D. Ниже видно, что полная модель значительно обходит более ранние архитектуры на задаче предсказания 3D формы объектов на изображении.

Сравнение Mesh R-CNN с state-of-the-art подходами

Как сверточные нейросети помогают дронам учиться летать

В Intel с помощью сверточной нейросети обучили дрона летать в динамичной среде. Система тестируется как симулированном пространстве, так и в реальном. Результаты системы превосходят state-of-the-art подход и сравнимы с профессиональным пилотом по успешности, но отстают по скорости в полтора раза. Одни из актуальных проблем…

EDVR: нейросеть восстанавливает кадры из видеозаписи

В соревновании по восстановлению видеозаписей NTIRE19 победила архитектура (EDVR), основанная на сверточных нейросетях. Модель решает проблемы восстановления резкости при приближении кадра и восстановления содержания размытых кадров в видеозаписи. Результаты EDVR сравнимы с state-of-the-art подходами в восстановлении видеозаписей. Задачи по восстановлению видеозаписи включают в себя…

EfficientNet: как масштабировать нейросеть с использованием AutoML

В рамках ICML 2019 была опубликована работа, в которой исследователи предлагают метод для оптимизации сверточных нейросетей. Предыдущие методы произвольно масштабировали размерность нейросети (например, количество слоев и параметров). Предложенный метод равномерно масштабирует части нейросети с фиксированными коэффициентами масштабирования. Оптимизированные сети (EfficientNets) обходят state-of-the-art подходы по…
DL-Net intel labs

Алгоритм DL-Net от Intel Labs восстанавливает несколько видов повреждения изображения

Свёрточные нейронные сети очень эффективны в восстановлении изображений, но большинство существующих алгоритмов способны справляться только с одним видом повреждения изображения. Исследователи из Intel Labs представили алгоритм deep likelihood network (DL-Net), цель которого — обобщение существующих сетей для восстановления любых типов повреждений. Для достижения этой…
оценка фотографий нейросеть

Нейросеть Photofeeler D3 оценивает привлекательность фотографий

За последнии двадцать лет онлайн-знакомства приобрели большую популярность, а первое, что оценивают пользователи приложений для знакомств — фотография профиля. Исследователи из Photofeeler Inc представили алгоритм оценки фотографий, который помогает выбрать наиболее привлекательную из них. Эксперименты показазали, что алгоритм Photofeeler D3 позволяет оценивать фотографии так,…
https://docs.google.com/document/d/1e2OPAL_V9lgAT4ObON8SzX2oPebjbo2PJao6QNqrIH8/edit

Нейросеть RawNet от Xiaomi генерирует высокачественную речь

Исследователи из компании Xiaomi представили end-to-end генератор звука RawNet. Он использует сеть кодера для извлечения характеристик звука и сеть голосовых сигналов (voder) для генерации речи. Эксперименты по задачам Copy-Synthesis показывают, что RawNet достигает качества LPCNet, но при этом имеет более простую архитектуру и быстрее…
semantic segmentation guide

Семантическая сегментация: краткое руководство

Cемантическая сегментация изображения означает присвоение каждому пикселю определенной метки. В этом заключается главное отличие от классификации, где всему изображению ставится в соответствие только одна метка. Сегментация работает со множеством объектов одного класса как с единым целым. Инстанс-сегментация обрабатывает несколько объектов одного класса как различные…
architectures

Разработанный MIT алгоритм NAS в 200 раз быстрее аналога от Google

Google разработала алгоритм, отвечающий за поиск оптимальной архитектуры (neural architecture search, далее NAS), которому понадобилось 48 000 часов работы GPU для создания свёрточной нейронной сети, которая используется для классификации и поиска изображений. В MIT создали алгоритм ProxylessNAS, который до 200 раз превосходит его по скорости работы.…
оценка и предсказание 3D позы

Open source модель определения 3D позы по 2D изображению

Оценка позы человека в трехмерном пространстве находит применение во многих задачах: беспилотный транспорт, виртуальная реальность, спортивная аналитика и видеонаблюдение. Задача восстановления 3D позы человека по изображению встречается с большими трудностями, по большей части из-за свойственной 2D изображениям геометрической неоднозначности. В решении есть дополнительные трудности:…
neural network saves bees

Нейронная сеть поможет пчеловодам уберечь пасеки от паразитов

Исследователи из Швейцарии разработали алгоритм, который поможет пчеловодам уберечь пасеки от паразитов: клещей вида Varroa destructor. Разработчики создали приложение, куда пчеловод загружает фотографии поддонов из ульев, а алгоритм проверяет фото на наличие клещей. Клещ варроа — самый частый виновник гибели колоний пчел. Только в…

RetouchNeuroBot — Telegram бот для ретуши портретных фотографий от Neurohive

@RetouchNeuroBot — Telegram-бот для ретуши портретных фотографий и селфи. Он убирает морщины, покраснения, жирный блеск, разглаживает кожу и выравнивает цвет лица. Прямая ссылка — https://t.me/retouchneurobot. Работать с retouch_bot очень просто. Нужно загрузить фото с телефона или компьютера и выбрать желаемый уровень обработки. Бот уберет недостатки…

Нейросеть DeepFlash превращает пересвеченные селфи в студийные фото

Ученые из Италии разработали нейронную сеть DeepFlash, которая редактирует пересвеченные селфи и превращает их в качественные фото — как будто они сделаны в студии с профессиональным освещением. Метод исправляет дефекты, которые возникают при съемке со вспышкой крупным планом: блики, тени, блеск кожи, сглаженность изображения.…
EmoPy распознавание эмоций

Предобученные модели распознавания эмоций EmoPy выложили в открытый доступ

EmoPy — набор инструментов для распознавания эмоций на Python, который содержит несколько моделей с открытым исходным кодом, показывающих точность до 92% для трех эмоций и 68% для семи. Модели предлагается использовать в качестве предобученных и повышать точность для конкретного датасета.  По словам разработчиков, цель…

Facebook выложил модель распознавания речи Wav2Letter++ в открытый доступ

Команда Facebook AI Research выложила в открытый доступ wav2letter ++ — модель распознавания речи, которая использует только сверточные нейронные сети (CNN). В задаче распознавания речи Wav2letter++ демонстрирует уровень ошибок 4.91-5% , для человека этот показатель составляет 5.83%. Сеть написана на C++. Современное поколение моделей распознавания речи…
анализ неврологических заболеваний

В IBM разработали ногтевой датчик для анализа неврологических нарушений

Команда разработчиков IBM создала миниатюрный датчик, который может контролировать состояние здоровья пациента, отслеживая малейшие движения и деформации ногтя. Прибор состоит из тензодатчиков, прикрепленных к ногтю, и небольшого вычислительного устройства, которое измеряет значения деформации, собирает данные акселерометра и обменивается данными с умными часами. Часы анализируют…

Fimmic открывает доступ к фреймворку для обучения нейросетей микроскопическому анализу

Fimmic — компания-разработчик медицинского ПО, запускает aiForward — открытую глобальную программу для ученых и патологов, желающих использовать нейронные сети в своих исследованиях.   Программа aiForward предлагает участникам бесплатный доступ к современному фреймворку и поддержку со стороны команды экспертов. Основное внимание уделяется внедрению нейронных сетей…
капсульная нейронная сеть введение

Капсульная нейронная сеть или CapsNet: введение

Сверточные сети сделали потрясающую работу, но завязли в проблемах. Настало время начать думать о новых решениях или улучшениях. Эта статья — введение в капсульные нейронные сети. После прочтения вы поймете, как работают CapsNet и в чем их приципиальное отличие. Перед вами перевод статьи Understanding Capsule Networks…

Компьютерная игра на основе нейронных сетей помогает учить язык жестов

Канадский стартап Stradigi AI представил игру на базе сверточных нейронных сетей, которая помогает учить американский вариант языка жестов. Его используют люди с нарушениями слуха в Америке и Канаде. Команде удалось создать самую точную модель для определения жестов, её результат — 99,03%. Лучший результат предыдущих разработок…
pixel-art-gan

Нейросеть обучили создавать пиксель-арт из рисунков без учителя

При создании пиксельной графики художники вручную прорисовывают каждый пиксель. Это считается стандартом в работе, но при работе с большими проектами (играми, мультфильмами) занимает слишком много времени. На конференции SIGGRAPH Asia 2018 команда разработчиков из Китая представила каскадную сеть на основе сверточных нейронных сетей, которая…
u-net

U-Net: нейросеть для сегментации изображений

U-Net считается одной из стандартных архитектур CNN для задач сегментации изображений, когда нужно не только определить класс изображения целиком, но и сегментировать его области по классу, т. е. создать маску, которая будет разделять изображение на несколько классов. Архитектура состоит из стягивающего пути для захвата…