fbpx

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

Разработчики из Alexa Research в Amazon опубликовали описание модели, которая распознает эмоции по интонации голоса человека. В качестве модели разработчики использовали автокодировщик, который позволяет обучаться на неразмеченных данных.

Обычно классификация эмоций производится с помощью нейросети, которую обучили с учителем на размеченных данных. Нейросеть учится предсказывать класс на основе тех данных в обучающей выборке, которые приписаны к данному классу. Предложенная модель использует состязазательное обучение и состоит из кодировщика-декодировщика.

Архитектура автокодировщика

Процесс обучения делится на три этапа:

  1. Сначала кодировщик и декодировщик обучаются на неразмеченных данных;
  2. Используется состязательное обучение (дискриминатор), чтобы улучшить точность кодировщика;
  3. Кодировщик затачивается под задачу перевода из представления эмоции в класс эмоции
Визуализация архитектуры автоэнкодера

Скрытое представление данных делится на тип эмоции и стиль. Эти данные поступают в два состязательных дискриминатора. Дискриминатор — это нейросеть, которая учится отличать реальные данные из кодировщика от сгенерированных.

Модель обучалась на публичном датасете, который содержит 10,000 высказываний от 10 разных спикеров. Эти высказывания размечены в соответствии с характеристиками интонации: валентность, активация и доминация:

  • Валентность, которая отвечает за позитивность/негативность эмоции говорящего;
  • Активация, которая отвечает за то, вовлечен ли говорящий в разговор или пассивен;
  • Доминация, которая отвечает за то, контролирует свою речь говорящий или нет

Исследователи отметили трюки, которые помогли успешно обучить автокодировщик:

Оценка работы модели

Разработчики сравнили работу модели с конвенциональными методами обучения с учителем. Предложенный подход был на 3% более точный в определении валентности, чем конвенциональный подход.

Отдельно рассматривался случай, когда на вход нейросети поступала последовательность векторов, описывающих аудио характеристики двадцатисекундных нарезок. Нейросеть давала прирост в точности 4%.