Популяционный метод увеличивает скорость аугментации в 1000 раз

популяционный метод аугментации

Новый Популяционный метод аугментации (Population based augmentation, PBA) сравним по качеству с текущим state-of-the-art методом AutoAugment от Google, однако работает в тысячу раз быстрее, что позволяет широко использовать его разработчикам. В эксперименте на датасете CIFAR-10, удалось увеличить показатели по сравнению с state-of-the-art методом. Реализация метода доступна на github.

Проблема

Ключевой проблемой в использовании аугментации данных для обучения нейронной сети является выбор эффективной политики аугментации из большого пространства поиска операций-кандидатов. Правильно выбранная политика аугментации может привести к значительным улучшениям обобщений; однако современные подходы, такие как AutoAugment, в вычислительном отношении невозможны для обычного пользователя.

AutoAugment — очень дорогой алгоритм, который требует обучения 15 000 моделей сходимости, чтобы получить достаточно выборок для решения, основанного на обучении с подкреплением. Никакие вычисления не распределяются, и для обучения для ImageNet требуется 5000 часов графического процессора NVIDIA Tesla P100, а для обучения для CIFAR-10 — 5000 часов GPU. Например, при использовании графических процессоров P100 Google Cloud для CIFAR потребуется около 7500 долларов, а для ImageNet — 37 500 долларов!

Решение

Ошибка на тестовой выборке CIFAR-10 между PBA, AutoAugment и базовой моделью
Ошибка на тестовой выборке CIFAR-10 между PBA, AutoAugment и базовой моделью, которая использует только горизонтальное отражение, заполнение и обрезку, в моделях WideResNet, Shake-Shake и PyramidNet + ShakeDrop. PBA значительно лучше, чем базовая модель на уровне AutoAugment.

PBA использует алгоритм обучения на основе популяции для создания расписания политики аугментации, которое можно адаптировать в зависимости от текущей эпохи обучения. В этом ее  отличие от фиксированной политики аугментации, которая применяет те же преобразования, но независимо от текущего номера эпохи.

Сравнение стратегий аугментации AutoAugment и PBA
Сравнение стратегий аугментации AutoAugment и PBA. PBA обучает расписание вместо фиксированной политики. Он делает это за короткое время, используя алгоритм PBT для совместной оптимизации параметров политики аугментации с дочерней моделью. PBA генерирует одну функцию аугментации f(x, t), где x — входное изображение, а t — текущая эпоха.

Результаты

Результаты сравнения методов

Ошибка на тестовой выборке (%) на CIFAR-10, CIFAR-100 и SVHN. Чем ниже значение — тем лучше. Средняя итоговая ошибка на тестовой выборке считалась на 5 случайных инициализациях модели. Код для оценивания AA на SVHN не был выпущен, поэтому различия между реализациями могли повлиять на результаты. Таким образом, были сообщены AA* из переоценки разработчиков.

Mesh R-CNN: нейросеть, которая моделирует 3D форму объектов

Mesh R-CNN — это нейросетевая архитектура, которая для объектов входного изображения предсказывает их форму. Модель была описана в работе от Facebook AI Research (FAIR). По метрикам Mesh R-CNN обходит существующие state-of-the-art подходы по моделированию 3D формы объектов. Последние исследования в компьютерном зрении фокусировались на…

Рекомендательная система в Alibaba научилась учитывать последовательные действия клиентов

Исследователи из Alibaba Group опубликовали описание модели Behavior Sequence Transformer (BST), которая применяется в рекомендательной системе сайта Taobao. Особенность модели заключается в том, что она анализирует последовательности действий, совершенных пользователями. Это позволило значительно увеличить показатель кликабельности (click-through rate, CTR) по сравнению с двумя базовыми…

В Samsung AI разработали новый метод для трекинга позы человека на видео

Исследователи из Samsung AI и Сколково представили новую архитектуру нейросети для трекинга позы человека на видео. Метод обходит state-of-the-art подходы в случае видеосъемки с нескольких камер.  Оценка позы человека в 3D является актуальной проблемой компьютерного зрения. Такие модели находят применение в распознавании действий, в…
нейросеть для шумоподавления

Deep Network Priors: unsupervised метод подавления аудиошума

Ученые из Тель-Авивского университета разработали метод Deep Network Priors для шумоподавления, идея которого схожа с методом Deep Image Prior, но в применении к звуку. Он объединяет обработку как во временной, так и в частотно-временной области. Результаты превосходят все unsupervised методы и приближаются к supervised…
segmentation

Пирамидальная сеть от FAIR показала state-of-the-art результаты в сегментации изображений

Исследователи из Facebook AI Research представили нейросеть Panoptic FPN для сегментации объектов на изображении, которая обходит конкурирующие модели в эффективности. Panoptic FPN показала state-of-the-art результаты в задачах как семантической, так и в instance и panoptic сегментаций. Описание проблемы Для детектирования объектов на изображении активно…
morphnet

MorphNet от Google: open source нейросеть для оптимизации нейросетей

Google AI представила модель MorphNet, которая берет на вход любую нейронную сеть и оптимизирует ее так, чтобы она имела большую скорость, меньший размер и лучшую производительность без потери качества модели в решении поставленной задачи. Принцип работы MorphNet оптимизирует нейронную сеть через цикл сокращающихся и расширяющихся фаз. В фазе…
azimuth elevation gan

Сеть HoloGAN генерирует вид сбоку и сверху на основе 2D изображения

Группа исследователей предложила unsupervised модель GAN для восстановления 3D представлений из 2D изображений. Модель улучшила state-of-the-art результаты в генерации вида сбоку и сверху для предметов в датасетах Chairs и Cars. Особенности HoloGAN Большинство генеративных моделей используют 2D ядра сверток для генерации изображений и делают…
energy-based model

OpenAI представила масштабированную версию energy-based моделей

Преимущества energy-based моделей — генерализирующая способность и простота архитектуры. Но на практике их обучение вызывает сложности. Исследователи из OpenAI предложили способы оптимизации обучения EBM модели на основе MCMC (Marcov Chain Monte Carlo) семплирования и представили результаты работы улучшенной модели на нескольких датасетах: ImageNet32x32, ImageNet128x128,…
оценка и предсказание 3D позы

Open source модель определения 3D позы по 2D изображению

Оценка позы человека в трехмерном пространстве находит применение во многих задачах: беспилотный транспорт, виртуальная реальность, спортивная аналитика и видеонаблюдение. Задача восстановления 3D позы человека по изображению встречается с большими трудностями, по большей части из-за свойственной 2D изображениям геометрической неоднозначности. В решении есть дополнительные трудности:…
self-driving-cars

Беспилотные автомобили — насколько мы далеки от полной автономности?

Беспилотные автомобили в ближайшие несколько лет перестанут быть научной фантастикой. В последние несколько месяцев мы стали свидетелями стремительного развития этой технологии. Waymo (ранее проект Google, сейчас является частью Alphabet) два месяца назад запустил свой первый коммерческий сервис с беспилотным такси и в 2021 году планирует открыть завод в…
stylegan

StyleGAN для генерации новых лиц опубликована в открытом доступе

NVIDIA опубликовала код предобученной модели StyleGAN для генерации лиц, которые никогда не существовали. StyleGAN является state-of-the-art моделью с лучшими свойствами интерполяции и распутывания, способностью находить скрытые факторы вариации (определять положение лица и идентичность). Мы писали об анонсе StyleGAN 18 декабря прошлого года, но тогда NVIDIA…

Facebook выложил модель распознавания речи Wav2Letter++ в открытый доступ

Команда Facebook AI Research выложила в открытый доступ wav2letter ++ — модель распознавания речи, которая использует только сверточные нейронные сети (CNN). В задаче распознавания речи Wav2letter++ демонстрирует уровень ошибок 4.91-5% , для человека этот показатель составляет 5.83%. Сеть написана на C++. Современное поколение моделей распознавания речи…
stylegan

Нейросеть StyleGAN генерирует идеальные новые лица с помощью алгоритмов переноса стиля

Исследователи Nvidia опубликовали альтернативную архитектуру GAN, основанную на алгоритмах переноса стиля (style transfer). StyleGAN отделяет атрибуты высокого (например, позы и лица) и низкого уровня (веснушки и волосы) и генерирует новое изображение без учителя. Результат работы новой GAN трудно отличить от реальных изображений:   Сеть…
многозадачное обучение hmtl

Как HMTL помогает улучшить итоговую точность в задачах NLP

Да, вы правильно прочитали, это правда HMTL — модель Hierarchical Multi-Task Learning, что дословно переводится как Иерархическое многозадачное обучение. Наблюдается нарастающая волна как в NLP, так и в целом в глубоком обучении, которая называется многозадачное обучение! Перевод статьи Beating state-of-the-art in NLP with HMTL, автор…

Новый метод переноса движений из видео на виртуального персонажа

Создание реалистичных, похожих на настоящих людей персонажей — важная задача компьютерной анимации. Анимация персонажей применяется в  создании мультфильмов, компьютерных игр, спецэффектов в кино и виртуальной реальности. Ранние работы Анимация персонажей — сложная задача со множеством этапов. Автоматизация части этапов могла бы упростить и ускорить…

Восстановление 3D-модели волос и головы из видео

Трехмерные модели волос используются в виртуальной и дополненной реальности, видеоиграх, медицинском ПО. Однако создать реалистичную 3D-модель прически трудно даже в контролируемой среде. Исследователи предложили метод решения ещё более сложной задачи — реконструкции волос из обычных фотографий и видео. Предыдущие работы Недавно мы писали о…

The Sound Of Pixels: новый метод локализации и разделения звуков на видео

Исследователи давно изучают взаимосвязь видео и звука и проблемы, связанные с их обработкой. В прошлом учёные рассматривали проблемы локализации звука в видео, создание аудио для видео без звука, обучение без учителя в связанных с видео задачах с помощью аудиосигналов и другие. Новая идея В недавно…

BrainNet — интерфейс «мозг-мозг» для прямого взаимодействия людей

Большинство исследований, связанных с коммуникационными интерфейсами мозга, сосредоточены на интерфейсах «мозг-компьютер». Меньше результатов получено в области соединения двух или нескольких мозгов. Недавно ученые представили новый метод, который позволяет трем людям сотрудничать для решения задачи, используя прямую связь «мозг-мозг». Взаимодействие «мозг-мозг» Несколько лет назад было проведено исследование…
Selfie Matching DocFace+ DWI

Selfie ID: подтверждение личности с помощью глубокого обучения

Подтверждение личности — механизм обеспечения безопасности, широко применяющийся в контроле доступа при пересечении международных границ и управлении банковскими транзакциями. Кроме того, подтверждение личности требуется практически каждый день: при входе в офис, при работе с государственными организациями, при оформлении документов. Часто процесс выполняется вручную, и потому он…
deep claster - кластеризация изображений

Deep Claster — алгоритм глубокой кластеризации. Он почти достиг человеческой точности

Кластеризация изображений считается хорошо изученной областью машинного обучения. Однако, на самом деле, до сих пор не было сделано значимых попыток адаптировать этот подход к изучению визуальных особенностей на датасетах высокого разрешения. Создание датасета ImageNet внесло огромный вклад в обучение сверточных нейронных сетей. Однако, датасет…