Нейросеть Speech2Face генерирует изображение лица человека по аудиозаписи голоса

В Лаборатории искусственного интеллекта MIT опубликовали Speech2Face — модель, которая реконструирует лицо человека по записи его голоса. Нейросеть обучалась на миллионах видеозаписей с YouTube, на которых демонстрируется разговор человека.

Задача заключалась в том, чтобы понять, может ли голос отражать внешние характеристики его обладателя. Исследователи не фокусировались на том, чтобы точно реконструировать портрет человека по голосу, а на том, чтобы восстановить основные внешние характеристики.

Архитектура модели

На вход модель принимает спектограмму аудиозаписи голоса. Спектограмма — визуальное представление аудиоволн. На выходе модель отдает вектор размером в 4096 с характеристиками лица, который затем декодируется в изображение лица. Декодирование из вектора с характеристиками в изображение лица происходит с помощью предобученной нейросети.

Обучалась модель на датасете AVSpeech. Для этой цели исследователи использовали предобученную VGG-Face.

Пайплайн обучения модели можно разделить на два шага:

  1. Кодировщик голоса, который принимает на вход спектограмму и предсказывает вектор с характеристиками лица человека;
  2. Декодировщик лица, который принимает на вход вектор с характеристиками лица человека и генерирует лицо человека в стандартном формате (анфас и безэмоциональное)

Во время обучения декодировщик лица был зафиксирован и обучался только кодировщик голоса. Декодировщик лица исследователи взяли готовым из работы Cole et al.

Оценка работы модели

Нейросеть была протестирована с помощью качественных и количественных метрик. Во время экспериментов модель тестировалась на датасетах AVSpeech и VoxCeleb. Ниже можно, что чем длиннее входная аудиозапись (3 сек против 6 сек), тем выше количественная метрика и тем ближе сгенерированное изображение к истинному.

Recall в зависимости от длительности входных аудиозаписей (3 или 6 сек) и метрики
Сравнение сгенерированных изображений в зависимости от длительности входных аудиозаписей

Как сократить размер нейросети на 10-20% и не проиграть в точности

На ICLR 2019 исследователи из MIT представили метод, с помощью которого можно уменьшить размер нейросети на 10-20% и не потерять при этом в точности модели. Исследователи вводят “гипотезу о выигрышных билетах”: плотные, случайно инициализированные полносвязные нейросети содержат подсети, которые при обучении отдельно достигают точности,…
NS-CL

Нейросеть NS-CL интерпретирует сцену, требуя всего 5000 изображений для обучения

Гибридная модель NS-CL (Neuro-Symbolic Concept Learner) от MIT и Deepmind отвечает на вопросы по типу «Имеет ли красный объект слева такую же форму, как и фиолетовый справа». Модель имеет высокую точность, на обучение уходит в разы меньше времени и ресурсов, чем на другие современные…
architectures

Разработанный MIT алгоритм NAS в 200 раз быстрее аналога от Google

Google разработала алгоритм, отвечающий за поиск оптимальной архитектуры (neural architecture search, далее NAS), которому понадобилось 48 000 часов работы GPU для создания свёрточной нейронной сети, которая используется для классификации и поиска изображений. В MIT создали алгоритм ProxylessNAS, который до 200 раз превосходит его по скорости работы.…

Время пришло: MIT предлагает прописать юридические и этические правила для ИИ

Искусственный интеллект — источник развития и перспектив для четвертой промышленной революции, говорится в совместном докладе Intel и MIT. Ученые полагают, что пришел тот момент, когда нужно тщательно продумать будущее ИИ. Как с ним взаимодействовать? Должен ли он подчиняться законам? Как оценивать качество его работы?…
слепые зоны в обучении беспилотных автомобилей

Алгоритм Microsoft и MIT находит «слепые зоны» в обучении беспилотных автомобилей

Модель, совместно разработанная Microsoft и MIT, выявляет «слепые зоны» в обучении беспилотных автомобилей. Инженеры планируют использовать ее для повышения безопасности автономных автомобилей и роботов. Симуляция городской среды не может охватить все возможные ситуации на дороге, что приводит к непредвиденным ошибкам в реальных условиях. Если автономный…

В MIT создали приложение для подсчета калорий с распознаванием речи

СOCO Nutritionist — новое приложение для подсчета калорий на английском языке, которое оснащено алгоритмами распознавания речи. Добавить съеденные продукты теперь очень просто — достаточно сказать: «На завтрак я съел миску хлопьев с бананом и стаканом молока». Приложение обновит информацию о рационе, посчитает калории и…
GAN Paint Dissection

Исследователи MIT-IBM Watson AI Lab показали, что GAN понимает основы композиции

Генеративные нейросети (GAN) продемонстрировали способность создавать фотореалистичные изображения. Однако неизвестно, изучают ли сети композицию или работают за счет воспроизведения пиксельных паттернов. Компьютер может рисовать сцену двумя способами: самостоятельно составлять композицию из изученных объектов, запоминать изображение и воспроизводить его. Приложение GAN Paint и метод GAN…
action recognition datasets

Новые датасеты для задачи распознавания действий на видео

Распознавание действий крайне важно для задач видеонаблюдения, здравоохранения и взаимодействия человека с компьютером. Но как классифицировать видео по действиям, выполняемым на них? Классифицировать видео, на которых выполняется только одно действие, не так сложно. Задача схожа с проблемой классификации изображений. Но в данном случае она распространяется…

В MIT разработали алгоритм, который распознает объекты по голосовому описанию

Учёные из Лаборатории информатики и искусственного интеллекта (CSAIL) в MIT представили нейросеть, которая распознаёт объекты на изображении, сопоставляя их с голосовым описанием. Исследователи считают, что разработка может улучшить технологии распознавания речи и перевод с редких языков, которые не имеют достаточно данных для обучения моделей. Сопоставление изображения и звука…

На долю Китая приходится 48% мирового объема финансирования ИИ

На Всемирной конференции по искусственному интеллекту, которая прошла с 17 по 19 сентября в Шанхае, обсуждались вопросы сотрудничества между Китаем и иностранными государствами, предприятиями, академическими учреждениями. Цель — обмен идеями, теориями, технологиями и совместная работа для создания «умного» мира будущего. В письме—обращении к участникам конференции Си…

Итоги EmTech 2018: как корпорации и стартапы уже используют и планируют применять AI

Ежегодная конференция EmTech 2018 от MIT проходила с 11 по 14 сентября в MIT Media Lab в Кембридже. Спикеры из Boeing, IBM, Amazon и инновационных стартапов поделились, как в их компаниях используют искусственный интеллект и машинное обучение для улучшения безопасности и оптимизации рабочего процесса…

Фермеры, использующие машинное обучение, собирают дополнительные 400кг зерна с гектара

Алгоритмы машинного обучения помогают модернизировать сельское хозяйство: фермеры уже используют программное обеспечение, чтобы выбирать семена, рассчитывать количество удобрений, обнаруживать признаки болезни растений. На конференции EmTech MIT 2018 представители компании Climate Corporation рассказали, как они используют машинное обучение в сельском хозяйстве.  Информация собирается датчиками, установленными на…
Motion detection

Нейросеть от MIT распознает, что происходит на видео, с точностью 95%

Исследователи из MIT создали нейронную сеть, которая распознает транформации объектов на видео в реальном времени. В будущем технология поможет машинам лучше анализировать, что происходит вокруг них и даже предполагать развитие событий. Учёные использовали свёрточную нейросеть (CNN) и Temporal Relation Network, которая анализирует кадры с расположением объектов на разных этапах видео. Например, кадр, на котором листы бумаги сложены,…

В MIT создали нейросеть, которая обучит роботов сегментировать и передвигать предметы

Исследователи из MIT разработали алгоритм компьютерного зрения Dense Object Net, который помогает роботам в реальном времени распознавать, анализировать и определять назначение новых объектов. Теперь роботы смогут лучше манипулировать предметами — выбирать нужный предмет из нескольких, оценив его свойства. Как работает алгоритм Сначала робот фотографирует объект с разных сторон. Затем нейронная сеть Dense Object Net создаёт…