fbpx

OpenAI дает возможность побороться с OpenAI Five в Dota 2

dota 2 open ai five

В четверг OpenAI на три дня откроет доступ к платформе для игры в Dota 2 против OpenAI Five, который на прошлых выходных победил профессиональную киберспортивную команду OG. Исследователи отмечают, что успех модели обеспечило время обучения. На текущий момент модель обучается более 10 месяцев практически непрерывно. Итоговая версия бота обыгрывает прошлую в 99.9% случаев.

То, как модель воспринимает среду игры. В Dota количество параметров составляло 20,000

Что находится внутри бота

В основе OpenAI Five лежит Rapidreinforcement learning система, разработанная в OpenAI, которая оптимизирует PPO (Proximal Policy Optimization). OpenAI предложили PPO алгоритм в 2017 году как более эффективную альтернативу существующим методам оптимизации. PPO отвечает за обновление параметры модели и выигрывает за счет упрощенной формулировки. Согласно исследователям, модель, в основе которой лежит PPO, сходится быстрее в сравнении с policy gradient алгоритмами. Однако детали экспериментов не раскрываются.

В архитектуре Rapid системы выделяются две основные части:

  • rollout workers, в которых происходит обучение модели;
  • оптимизационная часть, которая отвечает за обновление параметров модели.

Параметры модели записываются в отдельную базу.

Архитектура Rapid

Другим направлением экспериментов была попытка научить модель играть более чем 5 игроками (до 25 игроками). Исследователи заявляют, что модель с такими настройками не успела обучиться до профессионального уровня к чемпионату.

Опыт vs. Более сложная архитектура

Текущая версия модели получила опыт более 45,000 часов индивидуальной игры в Dota (в 3,5 раза больше, чем предыдущая версия). Исследователи отмечают, что именно опыт в большей степени помог алгоритму победить в соревнованиях. Чтобы этого достичь, ученые непрерывно обучали модель, несмотря на периодические изменения в архитектуре. Каждый раз после обновления архитектуры модель начинала обучаться на параметрах модели с прошлого шага.

Игровая Арена

В четверг 18 апреля OpenAI запускает OpenAI Five Arena, а закроется в воскресенье 21 апреля. Это открытый эксперимент, в котором может поучаствовать любой желающий. Пользователям будет позволено поиграть либо вместе с моделью, либо против нее. Чтобы успеть поучаствовать, необходимо зарегистрироваться по ссылке.

Следующие шаги

Компания планирует раскрыть детали реализации модели более подробно после запуска Арены. В OpenAI считают, что следующей задачей в deep reinforcement learning будет сокращение требуемой информации для успешного обучения модели.