Нейросеть 3D-BoNet сегментирует объекты на 3D изображениях

3D-BoNet — это нейросетевая модель, которая распознает объекты на 3D изображениях и решает задачу instance сегментации в 10 раз более вычислительно эффективно по сравнению с существующими подходами.

Под 3D изображением здесь для простоты понимается облако точек, воссоздающее пространство изображения в 3D. Это термин из 3D моделирования. Instance сегментация — это задача распознавания отдельных объектов на изображении.

Различия между семантической и instance сегментациями

Что внутри нейросети

3D-BoNet — это end-to-end нейросеть. Она принимает на вход 3D изображение, а на выходе отдает границы распознанных объектов. Дизайн модели основан на поточечных многослойных перцептронах. Чтобы выучивать локальные и глобальные характеристики объектов, исследователи адаптировали существующую архитектуру PointNet++.

Сначала нейросеть извлекает характеристики для каждой точки входного изображения. Затем модель предсказывает для каждого объекта его грубые границы (bounding box). Другой блок, который отвечает за instance сегментацию, на основании результата прошлого блока предсказывает точные границы объекта.

Процесс обучения модели

Оценка работы модели

Исследователи провели два эксперимента: на данных ScanNet и S3DIS. Нейросети в обоих случаях решали задачу instance сегментации на 3D изображениях. В качестве метрики для первого эксперимента была Average Precision (AP) в процентах. Во втором эксперименте метрики были Mean Precision и Mean Recall.

Можно видеть, что точность 3D-BoNet сравнима с точностью state-of-the-art подходов.

Результаты моделей на данных ScanNet
Результаты моделей на данных S3DIS
Пример работы модели на задаче распознавания сотен объектов на изображении

Детали сравнения времени работы алгоритма с конкурирующими подходами описаны в оригинальной статье в разделе Computation Analysis.

Ограничения модели

Исследователи выделяют три ограничения у 3D-BoNet:

  1. Вместо не взвешенной комбинации критериев, обучать веса, чтобы адаптировать модель под разные типы входных изображений;
  2. Обучать семантическую сегментацию вместе с instance сегментацией, а не в отдельных блоках;
  3. Обучить модель не на разделенных маленьких изображения, а на широкомасштабных

Нейросеть обучили диагностировать аневризму

Стэнфордская группа машинного обучения, возглавляемая Эндрю Ыном, разработала модель, которая диагностирует внутричерепные аневризмы на снимках компьютерной томографической ангиографии (КТА) головы. Датасет содержал 818 обследований от 662 уникальных пациентов с 328 обследованиями КТА (40,1%), содержащих по крайней мере 1 внутричерепную аневризму и 490 обследований (59,9%)…
onesoil

Стартап OneSoil строит тепловые карты для прогноза урожайности

Стартап OneSoil представил мобильное приложения для мониторинга роста агрокультур на основе ИИ. Белорусский старап превращает спутниковые данные в аналитику о состоянии почвы и сельскохозяйственных культур. Приложение доступно на Android и в на сайте стартапа. OneSoil разработали свою платформу для Северной Америки, большей части Западной Европы и некоторых…
semantic segmentation guide

Семантическая сегментация: краткое руководство

Cемантическая сегментация изображения означает присвоение каждому пикселю определенной метки. В этом заключается главное отличие от классификации, где всему изображению ставится в соответствие только одна метка. Сегментация работает со множеством объектов одного класса как с единым целым. Инстанс-сегментация обрабатывает несколько объектов одного класса как различные…

Nvidia представила набор инструментов для радиологов Clara AI

Nvidia продолжает фокусироваться на разработке аппаратного и программного обеспечения с ИИ для врачей. На GTC 2019 компания представила платформу Clara AI, которая содержит набор инструментов для разработки медицинского ПО и предобученные модели для радиологов. Clara AI для радиологов Глубокое обучение сегодня имеет наибольший потенциал…
вакансию data scientist - как проходит собеседование

Вакансия Data scientist: вопросы и задачи на собеседовании

Предложение вакансии Data scientist на рынке труда постоянно растет, количество соискателей тоже. Возможностей для входа в эту профессию много — курсы по специальности помогут получить необходимые знания. Блог Acing AI публикует посты о том, как проходили интервью разработчиков Data science в крупнейших мировых компаниях.…

«Рутинные задачи с минимальным риском». Nature опубликовал доклад о развитии ИИ в медицине

Использование глубокого обучения в медицине активно развивается благодаря большому количеству размеченных снимков, возросшей вычислительной мощности и появлению облачных хранилищ данных. Нейронные сети влияют на состояние медицины на трех уровнях: помогают врачам быстро и точно интерпретировать изображения; уменьшают количество врачебных ошибок; помогают пациентам самостоятельно анализировать…
vgg16 нейронная сеть

VGG16 — сверточная сеть для выделения признаков изображений

VGG16 — модель сверточной нейронной сети, предложенная K. Simonyan и A. Zisserman из Оксфордского университета в статье “Very Deep Convolutional Networks for Large-Scale Image Recognition”. Модель достигает точности 92.7% — топ-5, при тестировании на ImageNet в задаче распознавания объектов на изображении. Этот датасет состоит…

Новые датасеты для оценки позы в 3D

Оценка позы в 3D — фундаментальная задача компьютерного зрения. Способность компьютера распознавать людей на изображениях и видео применяется в беспилотном вождении, распознавании действий, взаимодействии человека с компьютером, дополненной реальности и робототехнике. В последние годы ученые добились прогресса в оценке позы в 2D. Важный фактор успеха —…

Fluid Annotation — инструмент для разметки изображений от Google AI

Работа моделей компьютерного зрения зависит от качества разметки объектов в обучающих датасетах. На разметку одного изображения из COCO+Stuff у человека уходит 19 минут, значит для обработки всего набора данных потребуется 53 000 часов. Google AI представила инструмент Fluid Annotation, который поможет сократить время разметки одного изображения…

Нейронная сеть от Google AI выявляет раковые метастазы с точностью 99%

Google AI разрабатывают алгоритмы глубокого обучения для обнаружения раковых новообразований. Недавно алгоритм LYNA, первый раз представленный командой в 2017 году, достиг 99% точности в обнаружении метастаз рака молочной железы. В будущем разработка может использоваться для ускорения диагностики и уточнения диагнозов патологоанатомов. Инструмент для помощи…

Нейросеть диагностирует болезнь Альцгеймера с точностью 94%

Согласно данным Alzheimer’s Association, только в США болезнью Альцгеймера страдают 5,7 миллиона человек. В эту цифру входит 5,5 миллионов больных старше 65 лет, и 200 000 человек моложе 65 с ранними симптомами болезни. Учёные из Стэнфорда разработали алгоритм, который поможет врачам в ранней диагностике…
нейросеть обнаружение рака легких на ранних стадиях

Нейросеть распознаёт рак лёгких на ранних этапах с точностью 97%

По данным Американского онкологического общества, только в США у 200 000 людей ежегодно диагностируют рак лёгких. Исследователи из Университета Нью-Йорка разработали алгоритм, который поможет ускорить и упростить выявление заболевания на ранних этапах. Нейросеть распознаёт два из наиболее распространённых видов рака лёгких с точностью 97%,…

Нейросеть улучшила точность диагностики рака лёгких

Исследователи из Contextvision разработали метод глубокого обучения, который обнаруживает рак лёгких, анализируя образцы тканей пациентов. Точность работы модели 80%. «В клинической диагностике рака лёгких, при анализе микроскопических деталей, оценка сильно зависит от опыта патологоанатома. Результаты часто различаются», — отметили исследователи в статье. Чтобы сделать…

Сегментация людей на фотографии в сложных условиях

Понимание сцены — один из святых граалей сomputer vision. Проводится множество исследований, чтобы достичь абсолютного понимания того, что происходит на картинке. Получение любой дополнительной информации из изображения позволяет продвинуться по этой стезе. Главный акцент в ранних работах был в основном на простых задачах, так…
Моделирование позы на фотографии

Метод моделирования новых поз человека на изображении

Люди обладают удивительной способностью воображения. Воображение и обучение на опыте лежат в основе нашего интеллекта. Обе эти способности связаны – воображение работает благодаря памяти и опыту. Поэтому мы можем определить форму объекта, даже если рассматриваем его только с одной стороны, можем представить движение или…
semantic soft segmentation

«Мягкая» семантическая сегментация изображений

Редактирование изображений и создание коллажей было бы весьма захватывающим процессом, если бы не приходилось тратить бо́льшую часть времени на кропотливую разметку объектов. Задача еще усложняется, когда границы объектов размыты или присутствует прозрачность. Инструменты “Photoshop”, такие как «магнитное лассо» и «волшебная палочка», не очень интеллектуальны,…
Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning

Сегментация объектов на видео в реальном времени с помощью Pixel-Wise обучения

Видео остается одним из самых информационно емких источников данных, но при этом одним из самых дорогих в обработке. Для разработчиков любых приложений важна скорость, глубина и точность обработки данных. Задача выделения объектов на видео сейчас не может быть решена с удовлетворительным качеством и приемлемой скоростью.…