Machinelearning(@ai_machinelearning_big_data). Зачем Data-инженеру Spark В Почте Mail.ru работают со стеком Hadoop, Hive, Clickhouse, Spark. В да

Зачем Data-инженеру Spark В Почте Mail.ru работают со стеком Hadoop, Hive, Clickhouse, Spark. В данной статье на Хабре Data-инженер из команды Почты Mail.Ru остановился на некоторых аспектах работы с данными в Spark. Он ответил на следующие вопросы: как превратить 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов и построить своё классное хранилище без последующей переделки. Также в статье: архитектурные паттерны в хранилище Почты, эффективное хранилище данных, форматы хранения данных, параллельная обработка данных в Spark, запись колоночных файлов, запросы к данным в Spark и др. Хабр: habr.com/ru/comp…s/742084 ai_machinelearning_big_data