Свежая и достаточно объемная статья от Google о их текущей TSDB "Monarch".
12 страниц текста. 2 страницы "Related work". Много информации о языке запросов, схеме записей, храненнии, модели данных и т.п. Инетересно в первую очередь тем, кто строит с нуля свои системы хранения метрик.
Dropbox опубликовал доклад о том, как они меряли пропускную способность Кафки. В статье описывается подход к автоматическому тестированию, к построению модели эксперимента и т.п.
GitHub опубликовал postmortem про недавний (21 октября) инцидент из-за которогой pull request'ы и issues были фактически недоступны более 24-х часов. Очень поучительная история про консесус, mysql и репликацию.
Uber анонсировал свою time-series базу данных m3db, а также выложил в opensource read/write адаптер для Prometheus. Впрочем сам m3db лежал на гитхабе больше года, но с полным отсутствием документации (сейчас это исправлено).
Кластер m3db в убере содержит миллиарды уникальных серий и пишет десятки миллионов уникальных точек в секунду.
Для тех, кто считает что от всевозможных Spectre и Meltdown не нужно защищаться - исследователи из Graz University of Technology опубликовали пару страниц счастья с Proof Of Concept *remote* атакой на уязвимые к Spectre системы. Атака позволяет читать произвольные участки памяти, но к счастью, скорость чтения памяти очень низкая (единицы байт в час).
Slack и Atlassian заключили "партнерское" соглашение. По его условиям Atlassian закроет Hipchat и Stride и предоставит способы миграции в Slack. Также Slack'у достается (конечно за деньги) вся интеллектуальная собственность касающаяся Hipchat'а и Strdie'а. А в самом Slack'е улучшится интеграция с Jira (Hosted и Cloud), Trello, Bitbucket и появится с Confluence.
В блоге Dropbox'а опубликована статья про текущую архитектуру их хранилища (Magic Pocket). В процессе перехода от стандартных PMR[1] дисков к SMR[2] часть кода была переписана с Go на Rust, что позволило увеличить плотность сохранив потребление CPU и памяти на том же уровне.
В рамках USENIX Symposium on Networked Systems Design and Implementation 2018, проходившей в середине апреля, опубликованы некоторые подробности об устройстве сети в Google Cloud Platform. Может будет интересно просто посмотреть на подход к разработке изолированных высокопроизводительных сетей для облаков.
17 мая (четверг) в дата центре селектел (Санкт-Петербург) пройдет митап посвященный мониторингу. Участие бесплатное. Есть онлайн трансляция (требуется предварительная регистрация).
Тем временем, amazon добавил возможность делать производные от уже имеющихся CloudWatch метрики. Функционал называется CloudWatch Metric Math и позволяет в том числе считать агрегаты от множества метрик.
Хорошая статья о применимости разных алгоритмов хэширования в задаче балансировки нагрузки. Полезно будет понимать всем, кто пишет свои распределенные сервисы или балансировщики.
У небезызвестного Brendan Gregg'а очередная статья про низкоуровневый дебаг в Linux'е. В этот раз про новую фичу Kernel 4.15 (которая расширилась в 4.16) - TCP Tracepoints. Они позволяют делать всякие разные интересные штуки - например следить за изменением состояния соединения, получать эвенты в момент ретрансмитов и так далее.
Тихо и незаметно вышла ScyllaDB 2.1. Она позиционируется как drop in замена Cassandra 2.2 с избранными фичами из 3.x
Из главных изменений - поддержка time window compaction strategy. Одна из главных вещей которой не хватало большинству time series баз, использующих Кассандру.
Главные изменения релиза: - намного более гибкие дашборды. - появление концепции команд и разделения прав доступа - поддержка группировки дашбордов - поддержка тэгов в графите и возможность автоматического получения списка доступных функций (поддерживается в graphite-web 1.1.0+ и carbonapi 0.9.2+)
Пакеты будут в ближайшее время. Официальный анонс ожидается завтра на GrafanaCon EU 2018.