Mesh R-CNN: нейросеть, которая моделирует 3D форму объектов

Mesh R-CNN — это нейросетевая архитектура, которая для объектов входного изображения предсказывает их форму. Модель была описана в работе от Facebook AI Research (FAIR). По метрикам Mesh R-CNN обходит существующие state-of-the-art подходы по моделированию 3D формы объектов.

Последние исследования в компьютерном зрении фокусировались на распознавании объектов в 2D пространстве. В большинстве работ игнорировалась 3D структура объектов. Ранние модели, предсказывающие 3D форму объектов, не были обучены определять форму на реальных изображениях для множества объектов одновременно. Исследователи объединили последние решения из обоих задач и представили Mesh R-CNN.

Модель принимает на вход изображение, классифицирует объекты на изображении и для всех объектов определяет их форму в формате полигональной сетки (mesh). Чтобы ухватить разнообразие форм объектов, модель сначала предсказывает воксели объекта, которые затем преобразуются в сетку. Полигональная сетка — это понятие из 3D моделирования, которое используется для определения совокупности вершин, рёбер и граней, которые описывают форму объекта в 3D пространстве.

Схема того, как работает модель

Архитектура модели

Mask R-CNN — это стандартный подход для распознавания объектов на 2D изображении. Mesh R-CNN — это end-to-end модель, которая расширяет Mask R-CNN с помощью блока для предсказания полигональной сетки. Модель была обучена на датасете Pix3D.

Процесс обучения модели:

  1. Стандартная Mask R-CNN предсказывает класс объекта, его границы на изображении и 2D маску;
  2. Для объекта определяется его приблизительная форма с помощью блока с предсказанием вокселей;
  3. Приблизительная форма уточняется с помощью графовой сверточной нейросети и дополнительных модификаций;
  4. На выходе отдается сетка для объекта
Визуализация процесса обучения модели

Оценка работы модели

Блок предсказания формы (mesh predictor) валидировался на датасете ShapeNet. Затем результаты модели сравнивались с результатами конкурирующих архитектур на данных Pix3D. Ниже видно, что полная модель значительно обходит более ранние архитектуры на задаче предсказания 3D формы объектов на изображении.

Сравнение Mesh R-CNN с state-of-the-art подходами
segmentation

Пирамидальная сеть от FAIR показала state-of-the-art результаты в сегментации изображений

Исследователи из Facebook AI Research представили нейросеть Panoptic FPN для сегментации объектов на изображении, которая обходит конкурирующие модели в эффективности. Panoptic FPN показала state-of-the-art результаты в задачах как семантической, так и в instance и panoptic сегментаций. Описание проблемы Для детектирования объектов на изображении активно…
Facebook-AI-Research

Facebook работает над собственными процессорами для глубокого обучения

Facebook разрабатывает процессоры для глубокого обучения — об этом рассказал руководитель Facebook AI Research Янн ЛеКун (Yann LeCun) в интервью ZDNet. О том, что компания займется подобными исследованиями, было известно еще 4 года назад. Сейчас же, по словам ЛеКуна, разработка идёт полным ходом. «Такие…

Ученые создали чат-бота, который учится на собственных ошибках

Команда ученых из Facebook и Стэнфордского Университета разрабатывает чат-бота, который обучается самостоятельно, извлекая данные из диалогов с пользователями. Он отслеживает удовлетворенность собеседника и запрашивает обратную связь в случае неправильных ответов.   Аналитики Gartner утверждают что, к 2020 году 85% взаимодействий клиентов с сервисами будет осуществляться…

Библиотека моделей обработки языка PyText от Facebook теперь доступна open source

Команда Facebook AI Research открыла исходный код PyText — библиотеки для создания моделей обработки естественного языка. Социальная сеть ежедневно применяет модели, разработанные с помощью фреймворка, для работы с миллиардами прогнозов. PyText позволил повысить точность диалоговых моделей Facebook на 10%. «Мы планируем использовать PyText в качестве нашей…