Нейросеть 3D-BoNet сегментирует объекты на 3D изображениях

3D-BoNet — это нейросетевая модель, которая распознает объекты на 3D изображениях и решает задачу instance сегментации в 10 раз более вычислительно эффективно по сравнению с существующими подходами.

Под 3D изображением здесь для простоты понимается облако точек, воссоздающее пространство изображения в 3D. Это термин из 3D моделирования. Instance сегментация — это задача распознавания отдельных объектов на изображении.

Различия между семантической и instance сегментациями

Что внутри нейросети

3D-BoNet — это end-to-end нейросеть. Она принимает на вход 3D изображение, а на выходе отдает границы распознанных объектов. Дизайн модели основан на поточечных многослойных перцептронах. Чтобы выучивать локальные и глобальные характеристики объектов, исследователи адаптировали существующую архитектуру PointNet++.

Сначала нейросеть извлекает характеристики для каждой точки входного изображения. Затем модель предсказывает для каждого объекта его грубые границы (bounding box). Другой блок, который отвечает за instance сегментацию, на основании результата прошлого блока предсказывает точные границы объекта.

Процесс обучения модели

Оценка работы модели

Исследователи провели два эксперимента: на данных ScanNet и S3DIS. Нейросети в обоих случаях решали задачу instance сегментации на 3D изображениях. В качестве метрики для первого эксперимента была Average Precision (AP) в процентах. Во втором эксперименте метрики были Mean Precision и Mean Recall.

Можно видеть, что точность 3D-BoNet сравнима с точностью state-of-the-art подходов.

Результаты моделей на данных ScanNet
Результаты моделей на данных S3DIS
Пример работы модели на задаче распознавания сотен объектов на изображении

Детали сравнения времени работы алгоритма с конкурирующими подходами описаны в оригинальной статье в разделе Computation Analysis.

Ограничения модели

Исследователи выделяют три ограничения у 3D-BoNet:

  1. Вместо не взвешенной комбинации критериев, обучать веса, чтобы адаптировать модель под разные типы входных изображений;
  2. Обучать семантическую сегментацию вместе с instance сегментацией, а не в отдельных блоках;
  3. Обучить модель не на разделенных маленьких изображения, а на широкомасштабных

Mesh R-CNN: нейросеть, которая моделирует 3D форму объектов

Mesh R-CNN — это нейросетевая архитектура, которая для объектов входного изображения предсказывает их форму. Модель была описана в работе от Facebook AI Research (FAIR). По метрикам Mesh R-CNN обходит существующие state-of-the-art подходы по моделированию 3D формы объектов. Последние исследования в компьютерном зрении фокусировались на…

VQ-VAE-2: генерация реалистичных разноплановых изображений

Исследователи из DeepMind предложили использовать модифицированный вариационный автокодировщик для генерации правдоподобных разноплановых изображений. VQ-VAE-2 конкурирует по результатам с state-of-the-art подходами. Архитектура помогает избавиться от недостатков использования GAN-ов для генерации изображений. Сейчас для генерации изображений стандартным подходом является использовать генеративные нейросети (GANs). Несмотря на их…

Как сверточные нейросети помогают дронам учиться летать

В Intel с помощью сверточной нейросети обучили дрона летать в динамичной среде. Система тестируется как симулированном пространстве, так и в реальном. Результаты системы превосходят state-of-the-art подход и сравнимы с профессиональным пилотом по успешности, но отстают по скорости в полтора раза. Одни из актуальных проблем…

EDVR: нейросеть восстанавливает кадры из видеозаписи

В соревновании по восстановлению видеозаписей NTIRE19 победила архитектура (EDVR), основанная на сверточных нейросетях. Модель решает проблемы восстановления резкости при приближении кадра и восстановления содержания размытых кадров в видеозаписи. Результаты EDVR сравнимы с state-of-the-art подходами в восстановлении видеозаписей. Задачи по восстановлению видеозаписи включают в себя…

EfficientNet: как масштабировать нейросеть с использованием AutoML

В рамках ICML 2019 была опубликована работа, в которой исследователи предлагают метод для оптимизации сверточных нейросетей. Предыдущие методы произвольно масштабировали размерность нейросети (например, количество слоев и параметров). Предложенный метод равномерно масштабирует части нейросети с фиксированными коэффициентами масштабирования. Оптимизированные сети (EfficientNets) обходят state-of-the-art подходы по…

SANet: модель, которая переносит стиль с картины на изображение

Artificial Intelligence Research Institute в Корее опубликовали SANet — нейросетевую модель, которая накладывает на изображение стиль с картины. В нейросети можно регулировать параметр, который отвечает за то, насколько сильно модифицируется начальное изображение. Исследователи вводят identity loss как функцию потерь, чтобы лицо человека на начальном…

Нейросеть Speech2Face генерирует изображение лица человека по аудиозаписи голоса

В Лаборатории искусственного интеллекта MIT опубликовали Speech2Face — модель, которая реконструирует лицо человека по записи его голоса. Нейросеть обучалась на миллионах видеозаписей с YouTube, на которых демонстрируется разговор человека. Задача заключалась в том, чтобы понять, может ли голос отражать внешние характеристики его обладателя. Исследователи…

Нейросеть от Google AI предсказывает, насколько близко объект находится к камере

В Google AI обучили нейросеть, которая определяет, насколько объекты на изображении отдалены от камеры. Предложенный подход сравним с state-of-the-art решениями. Это первая нейросеть, обученная для случая, когда и камера, и объекты на видео двигаются. Реконструкция изображений из 2D в 3D — это открытая задача…

Pytorch выпустили обновление библиотеки для компьютерного зрения torchvision 0.3

Библиотека torchvision с инструментами для компьютерного зрения на Pytorch обновилась до версии 0.3. В обновленной версии был расширен список доступных моделей для распознавания объектов, семантической/instance сегментаций и распознавания опорных точек позы человека. Кроме расширения списка моделей, стали доступны новые C++ / CUDA операторы. В…

GAN из изображения человека синтезирует видео с ним

В Samsung AI и Сколково опубликовали работу, в которой нейросеть генерирует видео с человеком на основе одного или двух его статичных изображений. Модель выдает реалистичные результаты и сравнима по метрикам с state-of-the-art решениями. Архитектура нейросети Meta-learning часть модели включает в себя нейросеть, которая сопоставляет…

Нейросеть обучена выявлять рак легких по томографическим снимкам

Исследователи из Google AI представили нейросетевую модель, которая по томографическим снимкам диагностирует рак легких. Модель использует актуальные результаты томографии пациента и исторические результаты томографии, чтобы делать предсказании о риске рака легких. Нейросеть достигает state-of-the-art результатов и обучена на данных 6,716 случаев из National Lung Cancer…

В Оксфорде обучили self-supervised метод для сегментирования объектов на видео

Исследователи из Оксфорда представили нейросеть, которая по одному размеченному изображению распространяет разметку на всю видеозапись. На вход нейросети поступает размеченное изображение (часть видеозаписи), цель нейросети сохранить информацию о распознанных объектах на изображении. Этот подход можно использовать и для определения позы человека на видео. Нейросеть…

В Samsung AI разработали новый метод для трекинга позы человека на видео

Исследователи из Samsung AI и Сколково представили новую архитектуру нейросети для трекинга позы человека на видео. Метод обходит state-of-the-art подходы в случае видеосъемки с нескольких камер.  Оценка позы человека в 3D является актуальной проблемой компьютерного зрения. Такие модели находят применение в распознавании действий, в…

FUNIT: нейросеть для image-2-image трансформаций от NVIDIA

В Nvidia, Cornell и Aalto разработали нейросеть (FUNIT), которая преобразует изображение объекта из одного класса в другой (например, меняет породу собаки на изображении) и при этом требует минимального количества данных для обучения. FUNIT достигает state-of-the-art результатов и в части случаев обходит конкурирующие архитектуры. Обычно…
Snapchat

Туториал по созданию системы фильтров Snapchat с использованием Deep Learning

Добро пожаловать всем программистам, которые, возможно, открыли эту статью, увидев слова «Snapchat» и «Deep Learning». Клянусь, эти 2 слова привлекают вас, ребята, как огонь мотылька. Чего уж там, я тоже стал их жертвой, поэтому я часами делал этот проект. Перевод статьи Creating the Snapchat…

Страховая компания увеличила прибыль благодаря фотографиям домов клиентов с Google Street View

Результат исследования Лукаша Кидзиньски из Стэнфордского университета в Калифорнии и Кинга Кита-Войцеховского из Варшавского университета может позволить страховым компаниям значительно повысить свою прибыль. Исследование показало, что фотографии домов клиентов с Google Street View — очень хороший признак для предсказания вероятности предъявления иска в страховую…
vue ai

Vue.ai использует нейросети для генерации маркетинговых изображений товаров

Стартап Vue.ai, который использует GANы для генерации маркетинговых изображений и других задач ритейла, собрал 17 миллионов долларов от институциональных инвесторов. Среди инвесторов такие фонды, как Falcon Edge Capital, Sequoia Capital India и KDDI Innovation Fund’s Global Brain. Компания существует на рынке уже три года.…
лесопилка

Стартап использует компьютерное зрение для проверки качества досок

Компания Lucidyne Technologies применяет глубокое обучение для поиска изъянов в деревянных досках. Система сканирования изображений деревянных досок GradeScan успешно внедряется на лесопильных заводах. Использование глубокого обучения сокращает объем потерянной древесины и повышает качество пиломатериалов. Это первый крупный пример успешного использования глубокого обучения в лесной…

Как спрятаться от системы распознавания объектов

Студенты из KU Leuven обучили нейросеть, которая помогает скрыться от систем по детектированию объектов. Нейросеть генерирует принты, которые можно наложить поверх объекта, и детектор с меньшей вероятностью распознает объект. Видеодемострация работы детектора, если использовать сгенерированный принт На текущий момент нейросетевые видео системы по распознаванию…
FaceStyleGAN

Нейросеть FaceStyleGAN генерирует портреты из селфи в Snapchat

Исследователи из Snap Inc. и Чешского Технологического Университета обучили нейросеть, которая из фотографии пользователя генерирует портрет в желаемом стиле. Пользователь выбирает изображение портрета, на который нейросеть будет опираться при переносе стиля, и сеть в реальном времени генерирует портрет пользователя. Результаты FaceStyleGan сравнимы со state-of-the-art…