Нейросеть 3D-BoNet сегментирует объекты на 3D изображениях

3D-BoNet — это нейросетевая модель, которая распознает объекты на 3D изображениях и решает задачу instance сегментации в 10 раз более вычислительно эффективно по сравнению с существующими подходами.

Под 3D изображением здесь для простоты понимается облако точек, воссоздающее пространство изображения в 3D. Это термин из 3D моделирования. Instance сегментация — это задача распознавания отдельных объектов на изображении.

Различия между семантической и instance сегментациями

Что внутри нейросети

3D-BoNet — это end-to-end нейросеть. Она принимает на вход 3D изображение, а на выходе отдает границы распознанных объектов. Дизайн модели основан на поточечных многослойных перцептронах. Чтобы выучивать локальные и глобальные характеристики объектов, исследователи адаптировали существующую архитектуру PointNet++.

Сначала нейросеть извлекает характеристики для каждой точки входного изображения. Затем модель предсказывает для каждого объекта его грубые границы (bounding box). Другой блок, который отвечает за instance сегментацию, на основании результата прошлого блока предсказывает точные границы объекта.

Процесс обучения модели

Оценка работы модели

Исследователи провели два эксперимента: на данных ScanNet и S3DIS. Нейросети в обоих случаях решали задачу instance сегментации на 3D изображениях. В качестве метрики для первого эксперимента была Average Precision (AP) в процентах. Во втором эксперименте метрики были Mean Precision и Mean Recall.

Можно видеть, что точность 3D-BoNet сравнима с точностью state-of-the-art подходов.

Результаты моделей на данных ScanNet
Результаты моделей на данных S3DIS
Пример работы модели на задаче распознавания сотен объектов на изображении

Детали сравнения времени работы алгоритма с конкурирующими подходами описаны в оригинальной статье в разделе Computation Analysis.

Ограничения модели

Исследователи выделяют три ограничения у 3D-BoNet:

  1. Вместо не взвешенной комбинации критериев, обучать веса, чтобы адаптировать модель под разные типы входных изображений;
  2. Обучать семантическую сегментацию вместе с instance сегментацией, а не в отдельных блоках;
  3. Обучить модель не на разделенных маленьких изображения, а на широкомасштабных

Google Research Football: новая среда для обучения RL-агентов

Google AI опубликовали новую задачу для тренировки алгоритмов обучения с подкреплением (RL). Агенты будут учиться играть в футбол. Обучения с подкреплением фокусируется на задаче обучить агентов взаимодействовать со средой, в которую они помещены, и решать комплексные задачи. Уже сейчас методы обучения с подкреплением используются…

Нейросеть обучили диагностировать аневризму

Стэнфордская группа машинного обучения, возглавляемая Эндрю Ыном, разработала модель, которая диагностирует внутричерепные аневризмы на снимках компьютерной томографической ангиографии (КТА) головы. Датасет содержал 818 обследований от 662 уникальных пациентов с 328 обследованиями КТА (40,1%), содержащих по крайней мере 1 внутричерепную аневризму и 490 обследований (59,9%)…

Google AI представила библиотеку TensorNetwork для эффективных вычислений в квантовых системах

С помощью новой библиотеки TensorNetworks от GoogleAI стало общедоступным использование тензорных сетей, которые играют большую роль в современной квантовой физике. Однако, помимо применения в квантовых системах, тензорные сети все чаще находят применение в машинном обучении. Библиотека была разработана в сотрудничестве с институтом теоретической физики…

TensorWatch: библиотека для мониторинга и визуализации моделей

TensorWatch — это инструмент для отладки и визуализации процесса обучения моделей. Библиотека была разработана Microsoft Research. Основной функционал инструмента — мониторинг процесса обучения моделей в режиме реального времени в Jupyter Notebook. TensorWatch был позволяет кастомизировать то, какую часть модели и как пользователь хочет визуализировать,…

VQ-VAE-2: генерация реалистичных разноплановых изображений

Исследователи из DeepMind предложили использовать модифицированный вариационный автокодировщик для генерации правдоподобных разноплановых изображений. VQ-VAE-2 конкурирует по результатам с state-of-the-art подходами. Архитектура помогает избавиться от недостатков использования GAN-ов для генерации изображений. Сейчас для генерации изображений стандартным подходом является использовать генеративные нейросети (GANs). Несмотря на их…

Как сверточные нейросети помогают дронам учиться летать

В Intel с помощью сверточной нейросети обучили дрона летать в динамичной среде. Система тестируется как симулированном пространстве, так и в реальном. Результаты системы превосходят state-of-the-art подход и сравнимы с профессиональным пилотом по успешности, но отстают по скорости в полтора раза. Одни из актуальных проблем…

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

Разработчики из Alexa Research в Amazon опубликовали описание модели, которая распознает эмоции по интонации голоса человека. В качестве модели разработчики использовали автокодировщик, который позволяет обучаться на неразмеченных данных. Обычно классификация эмоций производится с помощью нейросети, которую обучили с учителем на размеченных данных. Нейросеть учится…

EDVR: нейросеть восстанавливает кадры из видеозаписи

В соревновании по восстановлению видеозаписей NTIRE19 победила архитектура (EDVR), основанная на сверточных нейросетях. Модель решает проблемы восстановления резкости при приближении кадра и восстановления содержания размытых кадров в видеозаписи. Результаты EDVR сравнимы с state-of-the-art подходами в восстановлении видеозаписей. Задачи по восстановлению видеозаписи включают в себя…

DeepMind обучили агентов играть в многопользовательскую игру на уровне человека

Исследователи из DeepMind обучили мультиагентную систему, которая играет в Quake III Arena: Capture The Flag так же хорошо, как человек. Методы обучения с подкреплением (RL) показывают хорошие результаты в случае среды с одним агентом. В реальном мире агент взаимодействует с другими агентами и принимает…

EfficientNet: как масштабировать нейросеть с использованием AutoML

В рамках ICML 2019 была опубликована работа, в которой исследователи предлагают метод для оптимизации сверточных нейросетей. Предыдущие методы произвольно масштабировали размерность нейросети (например, количество слоев и параметров). Предложенный метод равномерно масштабирует части нейросети с фиксированными коэффициентами масштабирования. Оптимизированные сети (EfficientNets) обходят state-of-the-art подходы по…

SANet: модель, которая переносит стиль с картины на изображение

Artificial Intelligence Research Institute в Корее опубликовали SANet — нейросетевую модель, которая накладывает на изображение стиль с картины. В нейросети можно регулировать параметр, который отвечает за то, насколько сильно модифицируется начальное изображение. Исследователи вводят identity loss как функцию потерь, чтобы лицо человека на начальном…

Нейросеть Speech2Face генерирует изображение лица человека по аудиозаписи голоса

В Лаборатории искусственного интеллекта MIT опубликовали Speech2Face — модель, которая реконструирует лицо человека по записи его голоса. Нейросеть обучалась на миллионах видеозаписей с YouTube, на которых демонстрируется разговор человека. Задача заключалась в том, чтобы понять, может ли голос отражать внешние характеристики его обладателя. Исследователи…

Нейросеть от Google AI предсказывает, насколько близко объект находится к камере

В Google AI обучили нейросеть, которая определяет, насколько объекты на изображении отдалены от камеры. Предложенный подход сравним с state-of-the-art решениями. Это первая нейросеть, обученная для случая, когда и камера, и объекты на видео двигаются. Реконструкция изображений из 2D в 3D — это открытая задача…

Pytorch выпустили обновление библиотеки для компьютерного зрения torchvision 0.3

Библиотека torchvision с инструментами для компьютерного зрения на Pytorch обновилась до версии 0.3. В обновленной версии был расширен список доступных моделей для распознавания объектов, семантической/instance сегментаций и распознавания опорных точек позы человека. Кроме расширения списка моделей, стали доступны новые C++ / CUDA операторы. В…

GAN из изображения человека синтезирует видео с ним

В Samsung AI и Сколково опубликовали работу, в которой нейросеть генерирует видео с человеком на основе одного или двух его статичных изображений. Модель выдает реалистичные результаты и сравнима по метрикам с state-of-the-art решениями. Архитектура нейросети Meta-learning часть модели включает в себя нейросеть, которая сопоставляет…

Нейросеть обучена выявлять рак легких по томографическим снимкам

Исследователи из Google AI представили нейросетевую модель, которая по томографическим снимкам диагностирует рак легких. Модель использует актуальные результаты томографии пациента и исторические результаты томографии, чтобы делать предсказании о риске рака легких. Нейросеть достигает state-of-the-art результатов и обучена на данных 6,716 случаев из National Lung Cancer…
GPT-2 medium

OpenAI выложили расширенную версию сети GPT-2, способную писать стихи

Этой весной лаборатория OpenAI, основанная Илоном Маском, представила результаты работы сети GPT-2, способной создавать фейковые новости, неотличимые от настоящих, а также стихи и другие тексты. Из-за угрозы злоупотребления обученной моделью, было принято решение не выпускать модель в открытый доступ, представив публике лишь весьма ограниченную…

Как сократить размер нейросети на 10-20% и не проиграть в точности

На ICLR 2019 исследователи из MIT представили метод, с помощью которого можно уменьшить размер нейросети на 10-20% и не потерять при этом в точности модели. Исследователи вводят “гипотезу о выигрышных билетах”: плотные, случайно инициализированные полносвязные нейросети содержат подсети, которые при обучении отдельно достигают точности,…

С помощью ИИ от Microsoft были разработаны новые рецептуры виски

Шведский ликеро-водочный завод Mackmyra Whisky, технологическая компания Fourkind и Microsoft недавно объединились для производства первого в мире виски, созданного искусственным интеллектом. Виски Mackmyra, сгенерированный искусственным интеллектом, будет доступен с осени 2019 года. По словам ликероводочного завода, это первый раз, когда сложный рецепт потребительского продукта был создан с машинным…

В Оксфорде обучили self-supervised метод для сегментирования объектов на видео

Исследователи из Оксфорда представили нейросеть, которая по одному размеченному изображению распространяет разметку на всю видеозапись. На вход нейросети поступает размеченное изображение (часть видеозаписи), цель нейросети сохранить информацию о распознанных объектах на изображении. Этот подход можно использовать и для определения позы человека на видео. Нейросеть…