Spark in me - Internet, data science, math, deep learning, philosophy(@snakers4). telegra.ph/A-vy-dr…es-10-13

Spark in me - Internet, data science, math, deep learning, philosophy

2440 @snakers4

Открыть

Канал про интересные мне темы - интернет - статистика - наука о данных Без рекламы и буллшита.

Spark in me - Internet, data science, math, deep learning, philosophy

@snakers4 4 года назад

Открыть в

telegra.ph/A-vy-dr…es-10-13

А вы, друзья, как ни садитесь...

Любой, кто хоть раз обучал нейронки, знает, что принято на каждой эпохе шаффлить датасет, чтобы не повторялся порядок батчей. А зачем это делать? Обычно это объясняют тем, что шаффлинг улучшает генерализацию сетей, делает точнее эстимейт градиента на батчах и уменьшает вероятность застревания SGD в локальных минимумах. Здесь можно посмотреть визуализацию поведения градиентов батчей с шаффлингом и без шаффлинга. Ну и самый простой и традиционный для ML аргумент - наши эксперименты подтверждают, что отключение…

Telegraph