fbpx

Pytorch выпустили обновление библиотеки для компьютерного зрения torchvision 0.3

Библиотека torchvision с инструментами для компьютерного зрения на Pytorch обновилась до версии 0.3. В обновленной версии был расширен список доступных моделей для распознавания объектов, семантической/instance сегментаций и распознавания опорных точек позы человека. Кроме расширения списка моделей, стали доступны новые C++ / CUDA операторы.

В новой версии теперь доступны базовые скрипты для обучения и оценки результатов моделей для решения задач классификации, семантической/instance сегментаций, распознавания объектов и опорных точек позы человека. Скрипты содержат примеры использования моделей и позволяют быстрее получить начальные результаты по поставленной задаче.

Примеры новых C++ / CUDA операторов, специфичных для работы с задачами компьютерного зрения:

  • roi_pool (RoIPool);
  • roi_align (RoIAlign);
  • nms (метод пост-обработки изображения, когда оптимизируются границы объектов на изображении так, чтобы на каждый объект имел свои границы);
  • box_iou (для расчета IoU метрики по границам объектов на изображениях — bounding boxes);
  • box_area (так же, как и предыдущий оператор, помогает в выборе оптимальных границ объектов на изображении)

В библиотеку были добавлены следующие модели.

Сегментация объектов

Теперь доступны модели для попиксельного предсказания изображений. Были добавлены такие модели для сегментации, как FCN и DeepLabV3. Предобученные на датасете COCO веса для ResNet101 доступны публично.

Результаты моделей, предобученных на COCO val2017

 

Распознавание объектов

Были добавлены более быстрые версии моделей для распознавания объектов и опорных точек позы человека: Faster R-CNN, Mask R-CNN, Keypoint R-CNN.

Скорость работы моделей, предобученных на COCO val2017

 

Классификация изображений

Библиотеку пополнили следующие модели для задачи классификации изображений:

Новые датасеты с изображениями

Помимо расширения списка моделей, в библиотеку были добавлены новые датасеты:

Полный список обновлений доступен по ссылке. В открытом доступе есть тьюториалы для работы с библиотекой.