Нейросеть V2CNet обучает роботов повторять действия за человеком

robot learning

Ученые Итальянского университета совместно с исследователями из Australian Centre for Robotic Vision опубликовали алгоритм, который конвертирует демонстрационные видео в команды для роботов.

V2CNet архитектура

Архитектура V2CNet

Сеть V2CNet еть состоит из двух ветвей:

  • ветвь классификации — использует входные объекты для изучения действия через сеть TCN;
  • ветвь перевода — выполняет роль кодировщика-декодера с двумя слоями LSTM-GRU. Первый слой LSTM-GRU используется для кодирования визуальных объектов, после чего входные слова объединяются с выходом первого слоя LSTM-GRU и подаются во второй слой LSTM-GRU, чтобы последовательно генерировать выходные слова в виде команды.

neural network

Датасет

Авторы предлагают новый способ выбора данных “video to — command” (IT-V2C), который фокусируется на тонком понимании действий в видеопотоке. С помощью IT-V2C создается новый датасет, который лучше подходит для обучения роботов, поскольку каждое действие в нем размечено максимально подробно.

Ниже приведен пример демонстрационных видео человека и покадровых действий в наборе данных IIT-V2C. Клипы записаны для сложных действий при различных условиях освещения:

results

Проверка модели

Для проверки модели исследователи создали дополнительный набор данных IIT-V2C, состоящий из видео демонстраций человека, вручную сегментированных на 11 000 коротких клипов, от 1 до 15 секунд, и аннотированных командным предложением, описывающим текущее действие. Авторы извлекали сказуемое из команды и использовали его в качестве класса действия для каждого видео. В результате этого было сформировано 46 классов.

Результаты

В экспериментах с использованием IT-V2C, методов извлечения признаков, а также с помощью рекуррентных нейронных сетей авторы утверждают, что нейросеть V2CNet успешно закодировала признаки для каждого видео и создала связанные команды. Результаты показывают, что использование сети TCN в классификации необходимо для повышения точности детекции и классификации.

results table

Тем не менее, показатель успеха классификации относительно низок, а проблема перевода видео в команды по-прежнему остается сложной, поскольку требует подробной разметки каждого механического действия.

energy-based model

OpenAI представила масштабированную версию energy-based моделей

Преимущества energy-based моделей — генерализирующая способность и простота архитектуры. Но на практике их обучение вызывает сложности. Исследователи из OpenAI предложили способы оптимизации обучения EBM модели на основе MCMC (Marcov Chain Monte Carlo) семплирования и представили результаты работы улучшенной модели на нескольких датасетах: ImageNet32x32, ImageNet128x128,…
decentralized prediction

Разработан децентрализованный подход для предсказания результатов лечения и смертности

Исследователи из MIT, Гарварда и университета Цинхуа разработали децентрализованный подход к обучению моделей предсказания смерности и времени пребывания в больнице на основе электронных медицинских карт. Для проведения работы, исследователи рассмотрели медицинские карты 200 859 пациентов, поступивших в 208 больниц со всей территории США. При…
ai for radiology

Какие требования выдвигают рентгенологи к полезному ИИ

Какими должны быть алгоритмы для помощи радиологам, чтобы эффективно работать в клинических условиях? 19 февраля в American Journal of Roentgenology опубликовали исследование, в котором описаны общие положения для успешного применения глубокого обучения в автоматической диагностике рака молочной железы. Предъявляемые требования актуальны для других медицинских алгоритмов.…
hololens 2 azure kinect

Microsoft представила Hololens 2 и пакет Azure Kinect для разработчиков

На ежегодной конференции Mobile World Congress (MWC) 2019 Microsoft представила второе поколение очков Hololens 2, Azure Kinect Developer Kit и ряд приложений для работы и обучения в AR. Microsoft Hololens 2 Новая версия гарнитуры получила увеличенный в 2 раза угол обзора (в первой версии было всего 30 градусов, ограниченный…
gan python keras tutorial

Туториал: создание простой GAN на Python с библиотекой Keras

В этом туториале я расскажу о генеративно-состязательных нейронных сетях (GAN) не прибегая к математическим деталям модели. Далее будет показано, как написать собственную простую GAN на Python с Keras, которая сможет генерировать знаки. Перед вам перевод статьи Demystifying Generative Adversarial Nets (GANs), опубликованной на Datacamp,…

Время пришло: MIT предлагает прописать юридические и этические правила для ИИ

Искусственный интеллект — источник развития и перспектив для четвертой промышленной революции, говорится в совместном докладе Intel и MIT. Ученые полагают, что пришел тот момент, когда нужно тщательно продумать будущее ИИ. Как с ним взаимодействовать? Должен ли он подчиняться законам? Как оценивать качество его работы?…
neural network saves bees

Нейронная сеть поможет пчеловодам уберечь пасеки от паразитов

Исследователи из Швейцарии разработали алгоритм, который поможет пчеловодам уберечь пасеки от паразитов: клещей вида Varroa destructor. Разработчики создали приложение, куда пчеловод загружает фотографии поддонов из ульев, а алгоритм проверяет фото на наличие клещей. Клещ варроа — самый частый виновник гибели колоний пчел. Только в…
nlp concepts

Четыре концепции, предопределившие прорыв в NLP

14 февраля OpenAI выпустила новую языковую модель GPT-2 — нейросеть, которая способна генерировать логичный текст на целые страницы и выполнять другие задачи NLP. Модель оказалась настолько эффективной в задачах генерации продолжения текста, что разработчики не решились выпускать полную версию в открытый доступ. OpenAI опасается большого…
метод причинной развертки

Метод причинной развертки научит ИИ понимать логику

Одна из фундаментальных задач в машинном обучении — поиск и расшифровка причинно-следственных связей в больших массивах данных. Исследование, проведенное учеными KAUST, предлагает новый подход к решению проблемы иерархического структурирования данных и индуктивного вывода. Проблема причинности  Современный искусственный интеллект не способен принимать решения на основе…
ведущие новостей искусственный интеллект

Китайское агентство Xinhua сгенерировало женский аватар диктора новостей

Государственное информационное агентство Китая Xinhua представило телеведущую новостей, сгенерированную искусственным интеллектом. Она будет рассказывать новости вместе с другими ИИ-ведущими, которые работают на китайском телевидении с ноября 2018. Проект разработан при поддержке поисковой компании Sogou. Прототипом для аватара Xin Xiaomeng стала реальная женщина Qu Meng…
предсказания движения пешеходов нейронная сеть lstm

Рекуррентная сеть Bio-LSTM предсказывает движения пешеходов

Ученые Мичиганского университета представили алгоритм, который поможет автономным автомобилям распознавать направление и предсказывать движения пешеходов. Собрав данные с помощью камер, лидаров и GPS, разработчики создали датасет и обучили рекуррентную нейронную сеть предсказывать движения человека c точностью до 10 см. Нейронная сеть Bio-LSTM Модель называется…
hong kong jail

В тюрьмах Гонконга тестируют технологии слежения за заключенными

Видеонаблюдение, браслеты для отслеживания местоположения, роботы для поиска наркотиков — в трех тюрьмах Гонконга начнутся испытания новых технологий в рамках плана по трансформации исправительных учреждений. Издание South China Morning Post опубликовало объявление главного комиссара исправительной службы Гонконга Дэнни Ву. Нововведения должны обеспечить безопасность заключенных и…
planet framework

PlaNet: open source модель от DeepMind для обучения агентов с подкреплением

PlaNet (Deep Planning Network) — нейронная сеть от Google Brain и DeepMind, которая изучает модель мира, просматривая изображения, и применяет полученные знания для планирования своих действий. Обучение с подкреплением для тренировки алгоритмов (когда сеть обучается с помощью вознаграждений) эффективно применяется для создания моделей принятия…
fake airbnb-min

Сайт генерирует несуществующие предложения квартир Airbnb, используя StyleGAN

Разработчик Кристофер Шмидт создал сайт, генерирующий несуществующие предложения квартир, которые выглядят как реальные профили из онлайн-сервиса бронирования Airbnb. На первый взгляд сайт действительно может ввести в заблуждение. Картинки, текст, описание квартиры и фотография хозяина созданы нейронной сетью. Изображения комнат и фотография хозяина генерируются нейросетью, обученной…
Facebook-AI-Research

Facebook работает над собственными процессорами для глубокого обучения

Facebook разрабатывает процессоры для глубокого обучения — об этом рассказал руководитель Facebook AI Research Янн ЛеКун (Yann LeCun) в интервью ZDNet. О том, что компания займется подобными исследованиями, было известно еще 4 года назад. Сейчас же, по словам ЛеКуна, разработка идёт полным ходом. «Такие…
big data courses

Курсы по Big Data и анализу больших данных на русском языке

Аналитик Big Data изучает большие массивы данных, которые собирает и хранит компания, чтобы разрабатывать и внедрять продукты, которые повысят эффективность решения задач, увеличат доход или улучшат обслуживание клиентов. Курсы Big Data нацелены на изучение задач и подходов к их решению. Комплексная работа с большими…
подводные планеры с ардуино

В Норвегии тестируют планеры с микроконтроллерами Arduino для мониторинга океана

В Норвегии разрабатывают роботизированную скоординированную систему Ocean-Air для проведения полностью автономных наблюдений за океаном. Разработки должны существенно сократить расходы на климатические исследования и повысить точность мониторинга. Что исследуют в океане Морские и прибрежные экосистемы изменяются из-за выбросов парниковых газов, загрязнения воды мусором и отходами…
stylegan

StyleGAN для генерации новых лиц опубликована в открытом доступе

NVIDIA опубликовала код предобученной модели StyleGAN для генерации лиц, которые никогда не существовали. StyleGAN является state-of-the-art моделью с лучшими свойствами интерполяции и распутывания, способностью находить скрытые факторы вариации (определять положение лица и идентичность). Мы писали об анонсе StyleGAN 18 декабря прошлого года, но тогда NVIDIA…
stylegan

Нейросеть StyleGAN генерирует идеальные новые лица с помощью алгоритмов переноса стиля

Исследователи Nvidia опубликовали альтернативную архитектуру GAN, основанную на алгоритмах переноса стиля (style transfer). StyleGAN отделяет атрибуты высокого (например, позы и лица) и низкого уровня (веснушки и волосы) и генерирует новое изображение без учителя. Результат работы новой GAN трудно отличить от реальных изображений:   Сеть…
GAN - Nvidia sreda ai

NVidia представили городскую среду, созданную генеративной нейронной сетью

Команда Nvidia обучила генеративную нейросеть (GAN) рендерингу окружающей среды после обучения на реальных видео, снятых в разных городах. Этот прорыв позволит разработчикам и художникам создавать новые интерактивные 3D-миры в виртуальной реальности, путем обучения нейронной сети на реальных видео. Это снизит затраты и время, необходимое…