Pytorch выпустили обновление библиотеки для компьютерного зрения torchvision 0.3

Библиотека torchvision с инструментами для компьютерного зрения на Pytorch обновилась до версии 0.3. В обновленной версии был расширен список доступных моделей для распознавания объектов, семантической/instance сегментаций и распознавания опорных точек позы человека. Кроме расширения списка моделей, стали доступны новые C++ / CUDA операторы.

В новой версии теперь доступны базовые скрипты для обучения и оценки результатов моделей для решения задач классификации, семантической/instance сегментаций, распознавания объектов и опорных точек позы человека. Скрипты содержат примеры использования моделей и позволяют быстрее получить начальные результаты по поставленной задаче.

Примеры новых C++ / CUDA операторов, специфичных для работы с задачами компьютерного зрения:

  • roi_pool (RoIPool);
  • roi_align (RoIAlign);
  • nms (метод пост-обработки изображения, когда оптимизируются границы объектов на изображении так, чтобы на каждый объект имел свои границы);
  • box_iou (для расчета IoU метрики по границам объектов на изображениях — bounding boxes);
  • box_area (так же, как и предыдущий оператор, помогает в выборе оптимальных границ объектов на изображении)

В библиотеку были добавлены следующие модели.

Сегментация объектов

Теперь доступны модели для попиксельного предсказания изображений. Были добавлены такие модели для сегментации, как FCN и DeepLabV3. Предобученные на датасете COCO веса для ResNet101 доступны публично.

Результаты моделей, предобученных на COCO val2017

 

Распознавание объектов

Были добавлены более быстрые версии моделей для распознавания объектов и опорных точек позы человека: Faster R-CNN, Mask R-CNN, Keypoint R-CNN.

Скорость работы моделей, предобученных на COCO val2017

 

Классификация изображений

Библиотеку пополнили следующие модели для задачи классификации изображений:

Новые датасеты с изображениями

Помимо расширения списка моделей, в библиотеку были добавлены новые датасеты:

Полный список обновлений доступен по ссылке. В открытом доступе есть тьюториалы для работы с библиотекой.

pytorch bigraph

Facebook представила фреймворк PyTorch BigGraph

На конференции SysML компания Facebook представила PyTorch BigGraph (PBG) — распределенную систему для обучения векторного представления графов. Особенность этой системы в том, что она рассчитана на большие графы, содержащие до миллиардов вершин и триллионов ребер. Документация по фреймворку находится в открытом доступе. Векторное представление графов…
pytorch tensorflow сходства и отличия

PyTorch и TensorFlow: отличия и сходства фреймворков

В статье будет рассказано о главных сходствах и различиях между двумя популярными фреймворками глубокого обучения — PyTorch и TensorFlow. Почему такой выбор библиотек? Существует много фреймворков глубокого обучения, многие из которых жизнеспособны, но я выбрал только PyTorch и TensorFlow, так как интересно сравнить эти…
vgg16 нейронная сеть

VGG16 — сверточная сеть для выделения признаков изображений

VGG16 — модель сверточной нейронной сети, предложенная K. Simonyan и A. Zisserman из Оксфордского университета в статье “Very Deep Convolutional Networks for Large-Scale Image Recognition”. Модель достигает точности 92.7% — топ-5, при тестировании на ImageNet в задаче распознавания объектов на изображении. Этот датасет состоит…
pytorch bigraph

Сверточная нейронная сеть на PyTorch: пошаговое руководство

В предыдущем вводном туториале по нейронным сетям была создана трехслойная архитектура для классификации рукописных символов датасета MNIST. В конце туториала была показана точность приблизительно 86%. Для простого датасета, как MNIST, это плохое качество. Дальнейшая оптимизация смогла улучшить результат плотно соединенной сети до 97-98% точности.…
pytorch туториал

Туториал по PyTorch: от установки до готовой нейронной сети

Если вы уже пробовали создавать собственные глубокие нейронные сети с помощью TensorFlow и Keras, то, вероятно, знакомы с чувством разочарования при отлаживании этих библиотек. Хотя они имеют API на Python, всё еще трудно выяснить, что именно пошло не так при ошибке. Они также плохо…

В MIT создали нейросеть, которая обучит роботов сегментировать и передвигать предметы

Исследователи из MIT разработали алгоритм компьютерного зрения Dense Object Net, который помогает роботам в реальном времени распознавать, анализировать и определять назначение новых объектов. Теперь роботы смогут лучше манипулировать предметами — выбирать нужный предмет из нескольких, оценив его свойства. Как работает алгоритм Сначала робот фотографирует объект с разных сторон. Затем нейронная сеть Dense Object Net создаёт…
imagenet

Cтуденты создали алгоритм, который на 40% эффективнее ИИ от Google

Cтуденты из fast.ai разработали алгоритм, который на 40% эффективнее чем код Google для анализа и классификации изображений. Обучение нейросети заняло 18 минут и стоило $40. Команда обучила алгоритм на датасете ImageNet до 93% точности за 18 минут, используя 16 облачных AWS, каждый из которых…
depth estimation using neural networks

Оценка глубины на изображении при помощи Encoder-Decoder сетей

От современных автономных мобильных роботов, например, беспилотных автомобилей, требуется глубокое понимание окружения. Полнота и точность модели окружающей среды играют ключевую роль для безопасности и эффективности работы. Камеры или датчики? В то время как датчики, такие как LIDAR, Radar, Kinect предоставляют 3D-данные, включая все пространственные размеры,…
Human Pose Estimation Under Occlusions

“Видеть сквозь стены” — исследователи научились определять позу человека за стеной

Возможность видеть сквозь стены всегда считалась сверхспособностью, и не раз становилась идеей научно-фантастических фильмов. В 2011 году исследователи из Массачусетского технологического института (MIT) объявили о разработке радара, показывающего в режиме реального времени изображение того, что происходит за сплошной стеной. Несмотря на неплохие результаты, метод…
Image Inpainting for Irregular Holes Using Partial Convolutions

Реконструкция фотографий методом частичной свертки от Nvidia

“Image inpainting” — задача заполнения пробелов в изображении (реконструкция, дорисовка). Цель работы, проделанной авторами — предложить модель для реконструкции изображений, которая надежно работает на нерегулярных пробелах и создает семантически значимые прогнозы, которые сочетаются с остальной частью изображения без необходимости дополнительных операций пост-обработки или смешивания. Модель используется со многими…