tldr_arxiv(@tldr_arxiv). The Unreasonable Effectiveness of Deep Features as a Perceptual Metric https://arxiv.org/pdf/1801.03

The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
https://arxiv.org/pdf/1801.03924.pdf
🕐 Когда - 10 апреля 2018 года
🍓 В чем понт
Во многих задачах компьютерного зрения возникает необходимость говорить, какая из двух деформированных картинок больше похожа на исходную. Например, когда мы синтезируем картинки, чтобы правильно выучиться, во время тренировки хочется понимать, молодцы мы или нет. А именно уметь считать, насколько нарисованная сетью картинка похожа на оригинал. Причем не просто абстрактно похожа, а похожа по мнению людей. Сейчас часто используются незамысловатые математические метрики -например SSIM, функция от среднего и дисперсии пикселей картинок, которые часто не коррелируют с представлениями людей о похожести картинок. Авторы говорят, что представления, которые формируются в сверхточных сетях, обученных на совершенно разных задачах передают мнение людей заметно лучше, чем простые эвристики. Вдумчивое использование глубоких метрик сходства сможет поднять качество в синтезе изображений, воссстановлении деформированного изображения, сжатия изображений.
🔎 Подробности
📘 Датасет
Для того, чтобы сравнивать полезность разных архитектур для подсчета метрики был собран датасет из полумиллиона картинок с оценками сходства между ними. В датасете если оригинальные картинки и их деформации - часть деформаций производилась классическими способами - добавление гауссовского шума, блюр, часть дефектов получалась обработкой нейронной сетью. Ведь в реальных задачах, например в сжатии изображений алгоритму нужно будет справляться со сравнением не выдуманных нами дефектов(блюра), а с изображениями, полученными сеткой.
🔗 Модели
Для расчета метрики схожести авторы брали сети VGG, Alexnet и SqueezeNet (легкая сетка для классификации), а также генеративные модели и еще несколько видов моделей. После обучения сети на каждой конкретной задаче сходство между картинками мерили следующим образом - брали нормализованные активации слоев в сети для двух картинок, считали для каждой пары L2- расстояние между ними, усредняли.
🔧 Эксперименты
В экспериментах исследовались, насколько разные метрики совпадают с мнением людей. Выяснили, что метрики, полученные даже с помощью простых моделей компьютерного зрения лучше математических метрик. Причем это свойство обеспечивается закономерностями в данных, а не архитектурой - случайно инициализированные сети не выдают адекватных метрик. Оказалось, что простые метрики по сравнению с нейросетевыми и оценкой людей считают размытие картинки несущественным искажением.
✏️ Что результате
Сделано исследование, рассматривающее полезность функций глубоких сверточных сетей, как метрик сходства изображений. Эта идея не нова - до этого, например, в задаче синтеза изображений уже использовались активации VGG на Imagenet, но активации сетей, обученных на другие задачи не исследовались и не сопоставлялись друг с другом. Плюс, авторы используют большой датасет, состоящий из оценок похожести картинок людьми, чтобы откалибровать активации сверточных сетей и сделать нашу метрику еще лучше. Даже функции, возникающие в простых сверточных сетях, оптимальнее классических метрик. Авторы связывают такое открытие с тем, что во время решения задачек по компьютерному зрению сеть не имеет шансов не выучить функции сходства картинок, так как от нее требуют выделять главное и отсекать неважное.
🍒 Рисунок из статьи
На рисунке изображена оригинальная картинка и две ее деформации. Галочками отмечено, какую деформацию считают ближе к оригинальной люди и разные алгоритмы.