Из интересного про YTsaurus от Яндекса
- полноценный продукт для операций MapReduce, замена Hadoop'а для тех кто ещё его использовал
- внутри работа с ClickHouse, YDB и Apache Spark, ИМХО, интереснее всего использование ClickHouse, хотя и было бы интересно посмотреть на бенчмарки
- собственный аналог виртуальной файловой системы и хранилища метаданных Cypress
- собственные форматы хранения данных YSON и Skiff. YSON как замена JSON с несколькими дополнительными типами данных и Skiff как бинарный формат похожий на Protobuff.
- в опубликованном коде нет UI кроме командной строки и примеров кода, потенциальная возможность для стартапов по созданию онлайн сервисов с веб уи и настройкой под себя, как это со многими другими опен сорс продуктами по модели։ открытый код + облачная подписка? просто предположение
- особенность в том что он реально про данные большого объёма, условно от десятков терабайт, хотя в Success Stories приведены примеры с сотнями терабайт. Если работа идёт с меньшим объёмом данных, то скорее всего это будет overkill, а вот если объём и инфраструктура разумно велики, то надо пробовать.
По всем ощущениям продукт очень интересный, хочется в будущем увидеть более подробные его разборы на конкретных кейсах применения и сравнениями.
#opensource #datatools #dataops #dataengineering