tldr_tany(@tldr_tany). Insights on representational similarity in neural networks with canonical correlation https://arxiv.

Insights on representational similarity in neural networks with canonical correlation
https://arxiv.org/abs/1806.05759
⏱Когда - 21 июня 2018
🕶 В чем понт
Алгоритм исследования поведения нейронных сетей на основе метода, считающего сходство между слоями(CCA - Canonical correlation analysis), очищенного от шума. Исследовали этим методом поведение сетей, нашли особенности генерализующих сетей, сетей с одинаковой топологией, но разным learning rate, реккурентных сетей.
🔍 Подробности
🖇 CCA
CCA - математический метод, который позволяет находить лучшую линейную комбинацию, связывающую два массива, и таким образом считать сходство между ними (в нашем случае массивы это активации двух слоёв сети). В результате мы получаем коэффициенты корреляции между векторами разложения массива (CCA - векторами) для наших слоев. Чем больше эти коэффициенты, тем ближе слои , расстояние - единица минус среднее между коэффициентами корреляции.
🔦 Отделение шума от сигнала
Возможно, некоторые CCA векторы активации шумовые и нам не нужны. Посмотрим, как меняются эти вектора, когда лосс сети выходит на константу - некоторые вектора тоже принимают постоянные значения, а некоторые хаотично меняются - их логично считать за шум и не учитывать корреляцию между ними в расстоянии.
🖋 Выводы, к которым пришли
С помощью метода выше сравнивали слои в нейронках и сделали выводы:
1. Сети, которые генерализуют сходятся к более похожим репрезентациям, чем те, которые запоминают
2. Широкие сети сходятся к более похожим решениям, в отличие от узких
3. Сети с одинаковой топологией и разными learning rate сходятся к маленькому набору разных решений
4. Между временными шагами в RNN репрезентации значительно меняются
5. Таким методом можно и дальше смотреть, что происходит внутри нейронок, осознанно, а не алхимически улучшая их обучение