fbpx

DeepMind объявила конкурс по созданию нейросетей, решающих математические задачи

deepmind maths challenge

Исследователи из DeepMind открыли доступ к датасету математических задач и ответов к ним и проверили то, как существующие архитектуры справляются с предсказанием ответа на математическую задачу. В будущем это может помочь обучать модели для решения задач, у которых до сих пор нет решения.

Ученые ставят перед собой первоначальную цель обучить нейросеть тем навыкам, которые используют люди при решении математических задач:

  1. Распознавание сущностей (entity recognition) чисел, арифметических операций, переменных и слов, описывающих условия задачи;
  2. Планирование порядка решения задачи;
  3. Запоминание промежуточных переменных в случае с композициями функций (например, h(f(x)));
  4. Применение аксиом, правил подстановки и др.

Сам датасет представляет собой набор из математических вопросов и ответов на них. Темы вопросов, освещенные в датасете, охватывают школьную программу.

Примеры задач из датасета
Примеры задач из датасета

Сравнение архитектур

В рамках экспериментов исследователи посмотрели, как с задачей справляются простые LSTM и RMC, LSTM и RMC с attention слоем и Трансформер. В качестве метрик эффективности были выбраны интерполяция и экстраполяция.

LSTM показали себя лучше, чем RMC. Наилучшие результаты показал Трансформер, добавление attention слоя не повысило метрику экстраполяции LSTM:

Результаты

LSTM или RMC

Использование RMC с более чем 1 слотом памяти не приводило к повышению эффективности модели. Также, RMC были менее ресурсозатратные в контексте расходования памяти, но обучались дольше LSTM.

Добавлять ли attention?

LSTM с attention слоем и без имели схожую эффективность. Проблема может быть в том, что LSTM с attention слоем не может распарсить сам вопрос, в связи возможность переключать внимание с одного скрытого слоя на другой оказывается бесполезной.

Простые виды вопросов для нейросетей

Меньшую сложность у моделей вызывали вопросы, касающиеся округления чисел, сравнения чисел и поиска неизвестной переменной в выражении. В то же самое время среди наиболее сложных задач была факторизация (разложение числа на множители).

Подробности экспериментов и более подробные выводы опубликованы в статье.

Направления будущих исследований

Исследователи планируют в дальнейшем включить в датасет графические геометрические задачи,  а также расширить вариативность описания задач одного типа. На данный момент в датасете описания задач одного типа представлены в схожем формате, что ограничивает способность к генерализации у моделей, обученных на этом сете данных.