В Samsung AI разработали новый метод для трекинга позы человека на видео

Исследователи из Samsung AI и Сколково представили новую архитектуру нейросети для трекинга позы человека на видео. Метод обходит state-of-the-art подходы в случае видеосъемки с нескольких камер. 

Оценка позы человека в 3D является актуальной проблемой компьютерного зрения. Такие модели находят применение в распознавании действий, в HCI, создании спецэффектов и т.п. Исследователи описывают две конфигурации нейросети: первая основывается на понятии алгебраической триангуляции, а вторая — на объемной триангуляции. Понятие триангуляции в компьютерном зрении отсылает к поиску точки в 3D пространстве с учетом проекции его проекцию на два и более изображений.

Описание подхода

Предполагается, что ведется синхронное видеонаблюдение за человеком с нескольких камер. Видео с этих камер преобразуются в проекционные матрицы. Целью модели является определить положение в трехмерном пространстве фиксированного количества точек на человеческом теле в момент t. Интересно, что модель не использует информацию о предыдущем положении точки на теле и на каждой отметке времени ищет положение точки заново.

Модель на алгебраической триангуляции

Изображения каждой из камер сначала обрезаются так, чтобы на изображении остался только человек. Из обрезанные изображения получаются карты признаков. Внутри 2D backbone части архитектуры —  ResNet-152. Затем получаются промежуточные тепловые карты, за которыми следует конволюционная сеть, которая трансформирует эти тепловые карты в интерпретируемые карты точек тела человека. Эти карты поступают с разных камер поступают в блок с алгебраической триангуляцией и выдают на выходе координаты позы человека.

Архитектура метода, основанного на алгебраической триангуляции

Модель на объемной триангуляции

В случае со второй конфигурация обрезанные изображения также попадают в ResNet и конволюционные слои. Затем генерируются 2D признаки изображений.Эти признаки агрегируются в точки с помощью объемное триангуляции.

Архитектура метода, основанного на объемной триангуляции

Результаты работы моделей

Исследователи проверяли разные конфигурации нейросети на датасете Human3.6M. В качестве метрики эффективности использовалась MPJPE. Видно, что модель на объемной триангуляции работает лучше, чем на алгебраической. В целом, на задаче с множеством камер нейросеть более эффективна.

оценка и предсказание 3D позы

Open source модель определения 3D позы по 2D изображению

Оценка позы человека в трехмерном пространстве находит применение во многих задачах: беспилотный транспорт, виртуальная реальность, спортивная аналитика и видеонаблюдение. Задача восстановления 3D позы человека по изображению встречается с большими трудностями, по большей части из-за свойственной 2D изображениям геометрической неоднозначности. В решении есть дополнительные трудности:…

Новые датасеты для оценки позы в 3D

Оценка позы в 3D — фундаментальная задача компьютерного зрения. Способность компьютера распознавать людей на изображениях и видео применяется в беспилотном вождении, распознавании действий, взаимодействии человека с компьютером, дополненной реальности и робототехнике. В последние годы ученые добились прогресса в оценке позы в 2D. Важный фактор успеха —…

Новый метод переноса движений из видео на виртуального персонажа

Создание реалистичных, похожих на настоящих людей персонажей — важная задача компьютерной анимации. Анимация персонажей применяется в  создании мультфильмов, компьютерных игр, спецэффектов в кино и виртуальной реальности. Ранние работы Анимация персонажей — сложная задача со множеством этапов. Автоматизация части этапов могла бы упростить и ускорить…
DeepIM 6DoF

Метод точной оценки позы в 6DoF от исследователей Nvidia

Разработчики Nvidia создали алгоритм DeepIM, который превосходит в точности существующие методы оценки положения объекта в 6DoF, что важно для роботов и VR приложений. Роборука предварительно анализирует положение объекта в пространстве и предказывает, как изменится положение объекта при перемещении. Чем точнее оценка и предсказание позы, тем точнее…
everybody dance now

«Танцуют все!» — невероятное качество Motion Transfer для видео

Плохо умеете танцевать? Больше не проблема! Удивите своих друзей ошеломляющим видео, где вы танцуете, как суперзвезда. Исследователи из Беркли предложили новый способ motion trasfer для видео. Они утверждают, что способны перенести исполнение танца с исходного видео на целевое всего за несколько минут. Предыдущие работы За последние…
DeepLabCut

DeepLabCut — новый инструмент для оценки позы и захвата движений

Исследователи из Гарварда разработали DeepLabCut — инструмент для автоматической оценки позы и разметки движущихся частей тела животных и людей. Обычно, чтобы отследить движения, исследователи записывают видео и вручную покадрово размечают изображения. В новом подходе учёные предлагают технологию для автоматизации и ускорения этого процесса. Идея состояла в…

Сегментация людей на фотографии в сложных условиях

Понимание сцены — один из святых граалей сomputer vision. Проводится множество исследований, чтобы достичь абсолютного понимания того, что происходит на картинке. Получение любой дополнительной информации из изображения позволяет продвинуться по этой стезе. Главный акцент в ранних работах был в основном на простых задачах, так…
neurohive news digest 2

Neurohive Digest. Нейронные сети и искусственный интеллект. Выпуск 2

Ссылки на материалы из выпуска: 1. Искусственный интеллект помогает прогнозировать урожай в Аргентине и Бразилии 2. Моделирование новой позы человека на изображении с помощью нейросети.
Моделирование позы на фотографии

Метод моделирования новых поз человека на изображении

Люди обладают удивительной способностью воображения. Воображение и обучение на опыте лежат в основе нашего интеллекта. Обе эти способности связаны – воображение работает благодаря памяти и опыту. Поэтому мы можем определить форму объекта, даже если рассматриваем его только с одной стороны, можем представить движение или…
3D pose estimation based on 2D joints and Forward-or-Backward Information (FBI) for each bone

Определение позы человека на изображении с помощью FBI

Беспилотное управление, виртуальная реальность, общение человека с компьютером, видеонаблюдение – области, в которых возможность определять позу человека на изображении играет ключевую роль. Значительные достижения в этой сфере были сделаны благодаря применению свёрточных нейронных сетей (Convolutional neural networks — CNN). Однако, задача остаётся нерешённой для…
Heatmap and offset vector simplification

Pose estimation в реальном времени прямо в браузере с TensorFlow.JS

Что же такое определение позы (pose estimation)? Определение позы — это метод компьютерного зрения, который оценивает фигуры людей на изображениях и видео и определяет, где находятся основные суставы. Технология не распознает, кто конкретно представлен на изображении — нет идентифицирующей личность информации. У pose estimation много областей применения, например, дополненная реальность, дорисованная анимация,…
Human Pose Estimation Under Occlusions

“Видеть сквозь стены” — исследователи научились определять позу человека за стеной

Возможность видеть сквозь стены всегда считалась сверхспособностью, и не раз становилась идеей научно-фантастических фильмов. В 2011 году исследователи из Массачусетского технологического института (MIT) объявили о разработке радара, показывающего в режиме реального времени изображение того, что происходит за сплошной стеной. Несмотря на неплохие результаты, метод…