Библиотека data scientist’а(@dsproglib). Почему ReLU лучше и чаще используется в нейронных сетях, чем сигмоида? Представьте сеть со случайно

Почему ReLU лучше и чаще используется в нейронных сетях, чем сигмоида? Представьте сеть со случайно проинициализированными весами (или нормализованными). Почти 50% сети дает 0 после активации из-за ReLu (вывод 0 для отрицательных значений x). Это означает, что срабатывает меньше нейронов и сама сеть легче. #вопросы_с_собеседований