fbpx

MineRL: датасет с демонстрациями игры в Minecraft для решения RL задач

Исследователи из Microsoft, CMU и других университетов опубликовали датасет с записями игр в Minecraft. Соревнование открывается 1-го июня и длится до 25-го октября. Участникам предлагается обучить модель, которая сумела бы играть в Minecraft. Соревнование проходит в рамках NeurIPS 2019. Это задача из сферы обучения с подкреплением. Ранее в начале этого года OpenAI представили модель, которая побеждает профессиональные киберспортивные команды в Dota 2.

Пример алгоритма решения задачи в игре (нахождение бриллианта)

Исследователи записали, как игроки решают четыре задачи во время игры в Minecraft: Navigation, Treechop, Obtain Item, Survival. Все задачи имеют лимит на их решение. Все задачи, кроме Navigation, заключаются в том, чтобы достать какой-то предмет, и имеют награду единого формата (например, +1 за каждый верно найденный предмет). Каждая из задач отражает типичные действия, которые совершают пользователи Minecraft.

Участникам соревнования предлагается решить следующие задачи.

Навигация

Задача навигации заявляется как наиболее сложная. В этой задаче агент должен из текущей локации переместиться к целевой локации. Помимо доступа к визуальным данным окрестностей, у игрока есть доступ к компасу, который указывает на заданную точку прибытия.

Treechop

В этой задаче агент должен собрать как можно больше дерева. Агент оказывается в среде, где много деревьев, с железным топором. В качестве вознаграждения за каждый кусок дерева агент получает +1. Обычно игроки в Minecraft используют дерево для создания предметов.

Нахождение предмета

Эта задача включает в себя ряд задач по поиску предметов в игре. Агент начинает игру в случайной стартовой локации без ресурсов. Ему нужно последовательно найти заданные в условии предметы.

Выживание

Агент начинает игру в случайной стартовой локации без ресурсов. Игрок сам формулирует цель игры и собирает предметы, чтобы достичь цели. Для этой задачи не определена единая функция награды. Она должна задаваться контекстно в зависимости от цели агента.

Личности исследователей и работа, в которой полноценно описан процесс сбора данных, будут доступны после публикации работы.