Яндекс открыл исходный код своей инфраструктурной системы, предназначенной для обработки больших данных YTsaurus. Вычислительный кластер «вайтизавра» способен хранить эксабайты данных, решать задачи машинного обучения на тысячах GPU и обрабатывать данные десятков тысяч пользователей.
В основе вычислительной архитектуры YTsaurus — модель распределённых вычислений MapReduce. Она помогает обрабатывать большие объемы данных с высокой надежностью и автоматически перезапускать часть вычислений в случае поломки отдельных узлов кластера. У YTsaurus также есть SQL-подобный движок, который упрощает объединение SQL-выражений в граф вычислений.
Теперь любая команда может воспользоваться возможностями YTsaurus для решения задач, связанных с большими данными. Подробнее про YTsaurus, ее архитектуру и преимущества читайте в блоге на Хабр. Демо-версия доступна на сайте платформы.