Нейросеть 3D-BoNet сегментирует объекты на 3D изображениях

3D-BoNet — это нейросетевая модель, которая распознает объекты на 3D изображениях и решает задачу instance сегментации в 10 раз более вычислительно эффективно по сравнению с существующими подходами.

Под 3D изображением здесь для простоты понимается облако точек, воссоздающее пространство изображения в 3D. Это термин из 3D моделирования. Instance сегментация — это задача распознавания отдельных объектов на изображении.

Различия между семантической и instance сегментациями

Что внутри нейросети

3D-BoNet — это end-to-end нейросеть. Она принимает на вход 3D изображение, а на выходе отдает границы распознанных объектов. Дизайн модели основан на поточечных многослойных перцептронах. Чтобы выучивать локальные и глобальные характеристики объектов, исследователи адаптировали существующую архитектуру PointNet++.

Сначала нейросеть извлекает характеристики для каждой точки входного изображения. Затем модель предсказывает для каждого объекта его грубые границы (bounding box). Другой блок, который отвечает за instance сегментацию, на основании результата прошлого блока предсказывает точные границы объекта.

Процесс обучения модели

Оценка работы модели

Исследователи провели два эксперимента: на данных ScanNet и S3DIS. Нейросети в обоих случаях решали задачу instance сегментации на 3D изображениях. В качестве метрики для первого эксперимента была Average Precision (AP) в процентах. Во втором эксперименте метрики были Mean Precision и Mean Recall.

Можно видеть, что точность 3D-BoNet сравнима с точностью state-of-the-art подходов.

Результаты моделей на данных ScanNet
Результаты моделей на данных S3DIS
Пример работы модели на задаче распознавания сотен объектов на изображении

Детали сравнения времени работы алгоритма с конкурирующими подходами описаны в оригинальной статье в разделе Computation Analysis.

Ограничения модели

Исследователи выделяют три ограничения у 3D-BoNet:

  1. Вместо не взвешенной комбинации критериев, обучать веса, чтобы адаптировать модель под разные типы входных изображений;
  2. Обучать семантическую сегментацию вместе с instance сегментацией, а не в отдельных блоках;
  3. Обучить модель не на разделенных маленьких изображения, а на широкомасштабных

Mesh R-CNN: нейросеть, которая моделирует 3D форму объектов

Mesh R-CNN — это нейросетевая архитектура, которая для объектов входного изображения предсказывает их форму. Модель была описана в работе от Facebook AI Research (FAIR). По метрикам Mesh R-CNN обходит существующие state-of-the-art подходы по моделированию 3D формы объектов. Последние исследования в компьютерном зрении фокусировались на…

Нейросеть от Google AI предсказывает, насколько близко объект находится к камере

В Google AI обучили нейросеть, которая определяет, насколько объекты на изображении отдалены от камеры. Предложенный подход сравним с state-of-the-art решениями. Это первая нейросеть, обученная для случая, когда и камера, и объекты на видео двигаются. Реконструкция изображений из 2D в 3D — это открытая задача…

Нейросеть обучена выявлять рак легких по томографическим снимкам

Исследователи из Google AI представили нейросетевую модель, которая по томографическим снимкам диагностирует рак легких. Модель использует актуальные результаты томографии пациента и исторические результаты томографии, чтобы делать предсказании о риске рака легких. Нейросеть достигает state-of-the-art результатов и обучена на данных 6,716 случаев из National Lung Cancer…

В Оксфорде обучили self-supervised метод для сегментирования объектов на видео

Исследователи из Оксфорда представили нейросеть, которая по одному размеченному изображению распространяет разметку на всю видеозапись. На вход нейросети поступает размеченное изображение (часть видеозаписи), цель нейросети сохранить информацию о распознанных объектах на изображении. Этот подход можно использовать и для определения позы человека на видео. Нейросеть…
Достопримечательности из датасета

Google AI расширила датасет для распознавания достопримечательностей

Google AI выпустила Google-Landmarks-v2, вторую версию крупнейшего датасета для распознавания достопримечательностей , расширив его до 5 миллионов изображений (в 2 раза). Особенностью датасета стало количество достопримечательностей — более 200 тысяч мест (увеличение в 7 раз по сравнению с первой версией). На основе этого датасета…

Как спрятаться от системы распознавания объектов

Студенты из KU Leuven обучили нейросеть, которая помогает скрыться от систем по детектированию объектов. Нейросеть генерирует принты, которые можно наложить поверх объекта, и детектор с меньшей вероятностью распознает объект. Видеодемострация работы детектора, если использовать сгенерированный принт На текущий момент нейросетевые видео системы по распознаванию…
нейросеть депрессия

Нейросеть диагностирует депрессию по комплексу внешних факторов

Депрессия является серьёзным заболеванием, от которого страдает большое количество людей в мире. Исследователи из Индийского технологического института Патна и Университета Кана в Нормандии представили глубокую нейронную сеть, которая может быть использована для определения депрессии за счёт модальных признаков — выражения лица, положения головы и…
segmentation

Пирамидальная сеть от FAIR показала state-of-the-art результаты в сегментации изображений

Исследователи из Facebook AI Research представили нейросеть Panoptic FPN для сегментации объектов на изображении, которая обходит конкурирующие модели в эффективности. Panoptic FPN показала state-of-the-art результаты в задачах как семантической, так и в instance и panoptic сегментаций. Описание проблемы Для детектирования объектов на изображении активно…
NS-CL

Нейросеть NS-CL интерпретирует сцену, требуя всего 5000 изображений для обучения

Гибридная модель NS-CL (Neuro-Symbolic Concept Learner) от MIT и Deepmind отвечает на вопросы по типу «Имеет ли красный объект слева такую же форму, как и фиолетовый справа». Модель имеет высокую точность, на обучение уходит в разы меньше времени и ресурсов, чем на другие современные…

TossingBot от Google учится точно бросать произвольные предметы

В Google разработали роборуку TossingBot, способную захватывать и бросать произвольные предметы в ящики, расположенные за пределами ее максимального диапазона досягаемости. Система может совершать более 500 захватов и бросков в час (или более 600 при точности захвата 85%). Робот достиг скорости захвата в два раза превышающей…

Hotels-50K: датасет с миллионом фотографий номеров отелей

Датасет Hotels-50K содержит миллион изображений из 50 000 отелей в разных странах. Датасет c номерами отелей создан с целью сопоставлять фотографии со снимками жертв human traffic (торговли людьми) из незаконной онлайн-рекламы, и помогать полиции определять, в каком отеле находятся похищенные люди. Датасет пригодится и для…

Бесплатные карты для автономного транспорта уже покрывают 6 миллионов км дорог

Mapillary — открытая платформа, которая собирает фотографии улиц, сделанные людьми с помощью смартфонов. Сервис разработан одноименным шведским стартапом и нацелен на создание постоянно обновляющихся карт для беспилотного транспорта, в которых содержится окружающая дороги обстановка. Mapillary хранит карты, полезные не только для автономных автомобилей, но…

В США создали «виртуальную стену». Она сможет ловить людей на границе с Мексикой

Компания соучредителя Oculus Палмера Лаки — Anduril Industries — создала технологию видеонаблюдения с алгоритмами распознавания, которая была успешно протестирована военными. Лаки предлагает использовать ее в качестве «виртуальной стены» на границе южной части США. Система наблюдения называется Lattice, она собирает данные с тысяч датчиков и соединяет…
Bixby Vision распознает продукты в холодильнике

Холодильник Samsung Family Hub будет распознавать продукты и предлагать рецепты

На выставке CES 2019 Samsung представил холодильник Family Hub с сенсорным экраном и встроенными камерами, которые передают изображение содержимого на смартфон через приложение Samsung SmartThings. Распознавание продуктов Компания сообщила, что в апреле выйдет обновление Bixby Vision, которое позволит холодильнику распознавать продукты в холодильнике с…

Корзина для покупок Caper AI распознает продукты и взимает оплату

Разработчики Нью-Йоркского стартапа Caper Labs встроили сканер и платежный терминал в корзину для покупок. Сейчас сканер работает как традиционный считыватель штрих-кодов, но компания планирует в сделать процесс более плавным с помощью датчиков веса и трех камер, которые встроены в корзину. «Умные» тележки с камерами уже…

Создан алгоритм визуального распознавания объектов по частям. Так работает мозг человека

Команда ученых из Калифорнийского университета создала алгоритм распознавания объектов, который идентифицирует объекты реального мира, используя тот же метод визуального обучения, что и человек. Люди могут понять, что они смотрят на собаку или кошку, даже если животное прячется за креслом, откуда виднеются только лапы или…

Нейросеть Pet Detector присылает SMS, если кот хочет домой. Код доступен на Github

Что делать, если ваш кот не выражает свое желание выйти за дверь громким мяуканьем и часами ждет под дверью, пока вы его не заметите? Для решения этой проблемы разработчик EdgeElectronics создал Pet Detector — нейронную сеть, которая присылает уведомление хозяину на смартфон, если кот находится…
туториал распознавание изображений tensorflow

Распознавание изображений предобученной моделью Inception-v3 c Python API на CPU

Это самый быстрый и простой способ реализовать распознавание изображений на ноутбуке или стационарном ПК без какого-либо графического процессора, потому что это можно сделать лишь с помощью API, и ваш компьютер отлично справится с этой задачей. Перед вами перевод статьи TensorFlow Image Recognition Python API Tutorial,…
google lens

Google Lens распознаёт миллиард объектов спустя год после запуска

Google Lens — приложение для определения объектов через объектив камеры. Вчера ему исполнился один год, в честь этого руководитель AR направления Google в своем блоге выпустила пост, в котором рассказала, каких успехов удалось достичь за этот год и не ждет ли его участь Google+.…
instagram стал доступен слабовидящим

Машинное обучение делает Instagram доступным для слабовидящих

Instagram запускает две новые функции, которые смогут облегчить использование приложения — автоматическую генерацию текстовых описаний к фотографиям с помощью технологии распознавания объектов и добавление альтернативных описаний к фотографиям. Facebook использует машинное обучение для создания текстовых описаний к фотографиям с 2016 года. Instagram будет использовать технологию, разработанную в Facebook…