fbpx

Пирамидальная сеть от FAIR показала state-of-the-art результаты в сегментации изображений

segmentation

Исследователи из Facebook AI Research представили нейросеть Panoptic FPN для сегментации объектов на изображении, которая обходит конкурирующие модели в эффективности.

Panoptic FPN показала state-of-the-art результаты в задачах как семантической, так и в instance и panoptic сегментаций.

Описание проблемы

Для детектирования объектов на изображении активно используются три подхода:

  1. Семантическая сегментация (выделяет разные классы объектов на изображении, включая среду);
  2. Instance сегментация (разделяет объекты одного класса на разные объекты);
  3. Panoptic сегментация (объединяет в себе преимущества семантической и istance сегментаций).

Различия подходов к детектированию объектов на изображении

Обычно для паноптической сегментации сначала тренируют сеть, которая отвечает за семантическую сегментацию объектов, и затем сеть, которая отвечает за instance-детектирование. Исследователи предлагают единую архитектуру для решения задачи паноптической сегментации.

Архитектура Panoptic FPN

Нейросеть состоит из трех основных компонетнов:

  1. Feature Pyramid Network (FPN), которая широко используется для задачи детектирования объектов, чтобы получить многоуровневые характеристики из изображения;
  2. Дополнительно к FPN добавляется слой для Instance Segmentation;
  3. Поверх FPN накладывается Semantic Segmentation слои.

Концептуально исследователи предлагают расширенную версию Mask R-CNN с добавлением FPN. Расширенная Mask R-CNN работает как бейзлайн архитектура для семантической, instance и паноптической сегментации.

Схема расширенной Mask R-CNN с FPN

Результаты экспериментов

Целью экспериментов было доказать, что Panoptic FPN работает одинаково хорошо на трех задачах как single-network решение (без ансамблирования моделей). Поэтому модели для сравнения тоже выбирались среди текущих single-network SOTA решений.

Чтобы протестировать то, как Panoptic FPN справляется с задачей паноптической сегментации, исследователи сравнили ее с топом лидерборда соревнования COCO. В основе Panoptic FPN лежала ResNet-101. По результатам, Panoptic FPN выступила лучше, чем остальные архитектуры, примерно на 9 пунктов по PQ метрике.

Сравнения работы архитектур по Panoptic Quality метрике (чем выше, тем точнее модель)
Пример работы Panoptic FPN на датасете COCO