Google Research Football: новая среда для обучения RL-агентов

Google AI опубликовали новую задачу для тренировки алгоритмов обучения с подкреплением (RL). Агенты будут учиться играть в футбол.

Обучения с подкреплением фокусируется на задаче обучить агентов взаимодействовать со средой, в которую они помещены, и решать комплексные задачи. Уже сейчас методы обучения с подкреплением используются в робототехнике, беспилотных автомобилях и киберспорте. Игра в футбол требует агентов держать краткосрочный контроль, выучивать концепты из игры (напр., передача мяча) и уметь формировать стратегии игры.

Football Environment была смоделирована на примере футбольных видеоигр. Среда представляет собой 3D симуляцию, где агенты контролируют игру одного игрока или всю команду. Цель агента — выиграть у команды противников.

Бета-версия находится в открытом доступе.

Видеодемонстрация среды:

Игровая симуляция

Главная часть Football Environment  — это продвинутая симуляция игры в футбол (Football Engine). Симуляция базируется на значительно модифицированной версии Gameplay Football. В зависимости от входных действий двух противоборствующих команд, симулируются все аспекты футбольного матча: голы, нарушения правил, угловые и пенальти удары и офсайды.

Football Engine реализован на C++. Это позволяет пользоваться симулятором на готовых машинах с GPU и без. Благодаря своей реализации, можно совершать около 25 миллионов шагов за день на шестиядерной машине.

Дополнительный функционал симуляции:

  1. Возможность как учить репрезентации состояний, который содержат информацию о локации игрока, так и учить агентов на сырых данных пикселей;
  2. Чтобы оценить эффект случайности, можно прогонять симуляцию в стохастическом (есть доля случайности в решениях агентов и в среде) или детерминистическом (нет случайности) режимах;
  3. Совместим с API OpenAI Gym;
  4. Возможность для исследователей играть за своего агента с помощью клавиатуры или геймпада

Список задач

Исследователи предлагают набор проблем в обучении с подкреплением (Football Benchmarks), которые можно решить с помощью Football Engine. Цель этих задач в том, чтобы обыграть основанного на правилах игрока. Правила для агента прописывались вручную.

В Football Benchmarks есть три типа задач:

  • Easy Benchmark;
  • Medium Benchmark;
  • Hard Benchmark

Задачи различаются силой основанного на правилах оппонента. Исследователи протестировали задачи на двух state-of-the-art подходах в обучении с подкреплением: DQN и IMPALA.

Результаты тестов задач на методах из RL. Чем выше метрика, тем больший был отрыв между моделью и запрограммированным оппонентом. Отрицательные значения — проигрыш модели против оппонента

DeepMind обучили агентов играть в многопользовательскую игру на уровне человека

Исследователи из DeepMind обучили мультиагентную систему, которая играет в Quake III Arena: Capture The Flag так же хорошо, как человек. Методы обучения с подкреплением (RL) показывают хорошие результаты в случае среды с одним агентом. В реальном мире агент взаимодействует с другими агентами и принимает…

MineRL: датасет с демонстрациями игры в Minecraft для решения RL задач

Исследователи из Microsoft, CMU и других университетов опубликовали датасет с записями игр в Minecraft. Соревнование открывается 1-го июня и длится до 25-го октября. Участникам предлагается обучить модель, которая сумела бы играть в Minecraft. Соревнование проходит в рамках NeurIPS 2019. Это задача из сферы обучения…
dota 2 open ai five

OpenAI дает возможность побороться с OpenAI Five в Dota 2

В четверг OpenAI на три дня откроет доступ к платформе для игры в Dota 2 против OpenAI Five, который на прошлых выходных победил профессиональную киберспортивную команду OG. Исследователи отмечают, что успех модели обеспечило время обучения. На текущий момент модель обучается более 10 месяцев практически…

Обучение с подкреплением применили для настройки протеза ноги

Роботизированный протез обычно настраивается вручную. Инженеры тратят часы, чтобы отрегулировать каждое соединение и адаптировать его к особенностям ходьбы конкретного человека. Метод автоматической настройки протеза c помощью обучения с подкреплением позволяет человеку ходить плавно уже через 10 минут обучения. Обучение с подкреплением Люди проходят через сложный…
nvidia роборука на кухне IKEA

Робот Nvidia учится убираться и готовить на кухне IKEA

Nvidia открывает новую робототехническую лабораторию в Сиэтле, чтобы сделать роботов более умными и эффективными. В качестве обучающей площадки компания выбрала стандартную кухню IKEA. Промышленные роботы пока ещё глупы и опасны, не смотря на последние достижения в области машинного обучения. Они выполняют отдельные сложные действия,…
gradient-noise-open-ai-batch-size

OpenAI вычисляют идеальный batch size для обучения моделей

Разработчики OpenAI представили исследование, которое показывает, что можно определить идеальный размер пакета данных для обучения алгоритмов, основываясь на данных шкалы градиентного шума. Метод позволит сократить время и стоимость обучения. В последние несколько лет исследователи добились успеха в ускорении обучения нейронных сетей благодаря параллельному обучению…

Ботов научили самостоятельно одеваться, используя обучение с подкреплением

Ученые из Технологического Института Джорджии научили анимационных персонажей одеваться самостоятельно. Боты умеют надевать виртуальные футболки и куртки, а также одеваться с помощью ассистента. Технология поможет создавать реалистичную компьютерную графику и в будущем может повлиять на разработку роботов, которые будут помогать одеваться больным или людям…
Обучение с подкреплением Python Keras

Обучение с подкреплением на Python с библиотекой Keras

Статья о том, как научить машинку участвовать в гонке, а персонажей — избегать файерболов. При этом агент способен научиться играть в игру в своем собственном «воображении». В статье — пример обучения с подкреплением (reinforcement learning) на Python с библиотекой Keras. Автор статьи — Давид Фостер. Эта…