Зачем Data-инженеру Spark
В Почте Mail.ru работают со стеком Hadoop, Hive, Clickhouse, Spark. В данной статье на Хабре Data-инженер из команды Почты Mail.Ru остановился на некоторых аспектах работы с данными в Spark.
Он ответил на следующие вопросы: как превратить 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов и построить своё классное хранилище без последующей переделки.
Также в статье: архитектурные паттерны в хранилище Почты, эффективное хранилище данных, форматы хранения данных, параллельная обработка данных в Spark, запись колоночных файлов, запросы к данным в Spark и др.
Хабр:habr.com/ru/comp…s/742084ai_machinelearning_big_data