fbpx

EDVR: нейросеть восстанавливает кадры из видеозаписи

В соревновании по восстановлению видеозаписей NTIRE19 победила архитектура (EDVR), основанная на сверточных нейросетях. Модель решает проблемы восстановления резкости при приближении кадра и восстановления содержания размытых кадров в видеозаписи. Результаты EDVR сравнимы с state-of-the-art подходами в восстановлении видеозаписей.

Задачи по восстановлению видеозаписи включают в себя увеличение резкости (super-resolution) и избавление от размытости кадров (deblurring). Однако сложность существует в тем, как выстраивать в ряд несколько кадров, если на них камера резко двигается. Еще одной проблемой является эффективное объединение кадров с различной степенью размытости. Эти проблемы решает EDVR (Enhanced Deformable Video Restoration) с помощью двухблочной структуры.

Архитектура фреймворка

На вход модели поступает N размытых кадров. На выходе модель отдает восстановленные кадры без размытия.

Две основных части модели — это PCD и TSA. Сначала, чтобы обрабатывать резкие движения, кадры проходят через модуль Pyramid, Cascading and Deformable (PCD). В этом модуле кадры выстраиваются на основе характеристик. Модуль реализован с помощью деморфируемых сверточных нейросетей. Затем набор характеристик кадров попадает в модуль Temporal and Spatial Attention (TSA). На этом этапе над характеристиками кадров используется механизм внимания, чтобы выделить те характеристики, которые важны для последующего восстановления кадров. Затем характеристики из модуля внимания попадают в модуль реконструкции кадров. Модуль PreDeblur необходим для увеличения точности совмещения кадров для модуля PCD.

EDVR является гибким фреймворком, который можно дообучить для конкретных задач. Благодаря такой двухступенчатой архитектуре EDVR победил во всех четырех направлениях соревнования NTIRE19.

Визуализация архитектуры модели

Сравнение архитектур

Исследователи сравнили EDVR со state-of-the-art для двух задач: увеличение разрешения кадров (SR) и избавление от размытости кадров (video deblurring). Для сравнения были использованы как качественная, так и количественная оценка.

Ниже видно, например, что EDVR справляется с увеличением разрешения кадра так же хорошо или в некоторых случаях лучше, чем остальные подходы. Больше примеров и количественная оценка результатов доступны в оригинальной статье.

Сравнение между конкурирующими подходами, GT — Ground Truth (реальное изображение)