Почему ReLU лучше и чаще используется в нейронных сетях, чем сигмоида?
Представьте сеть со случайно проинициализированными весами (или нормализованными). Почти 50% сети дает 0 после активации из-за ReLu (вывод 0 для отрицательных значений x). Это означает, что срабатывает меньше нейронов и сама сеть легче.
#вопросы_с_собеседований