fbpx

Российский Speech-to-text датасет (STT/ASR)

Российский Speech-to-text датасет

Группа российских разработчиков выпустила свободный датасет speech-to-text на русском языке, содержащий более 4000 тысяч часов записей с голосом для исследователей и разработчиков приложений с распознаванием речи. В ближайшее время создатели датасета планируют добавить еще 1500 часов речи, а в будущем увеличить его объем до 10 или даже 20 тысяч часов.

Содержимое датасета
Содержимое датасета

Данные в датасете разнообразны, их качество варьируется от довольно хорошего до почти идеального. Датасет нацелен на бизнес-приложения, поэтому выбирались соответствующие типы данных. Так, часть данных автоматически сгенерирована (ASR). Данные выбирались не только чистые, чтобы модель могла обучаться быть устойчивой к шумам и лучше работать в реальных условиях. Датасет выпущен под лицензией cc by-nc. Для использования в коммерческих целях потребуется связаться с создателями. Сами разработчики рассчитывают, что этот датасет станет подобным датасету Imagenet в области распознавания изображений по полноте и доступности в русскоязычном сегменте.

Особенности датасета:

  • Все ссылки являются публичными;
  • Датасет размещен в AWS-совместимом хранилище с CDN — скорость загрузки будет хорошей;
  • Большая часть данных проверена и записана в одном формате;
  • Сбор данных в дисковой БД, оптимизированной для работы даже на жестких дисках (разработчики еще не тестировали ее).
  • Файл meta data;
  • Некоторые простые изменяемые фрагменты кода для более легкого запуска;

Более подробно о мотивации авторов и особенностях датасета информация в оригинальной статье.