Канал, посвященный анализу данных с помощью Python. Не столько про машинное обучение, сколько про подготовку/очистку/предобработку данных, использование Python для получения данных из API, парсинга веб-сайтов, автоматизации различной рутины
Наткнулся на любопытную статью с описанием 6 трендов в сфере работы с данными, которые будут (а может и не будут) популярны в 2022
Список такой:
1️⃣ Data Mesh
2️⃣ Metrics Layer
3️⃣ Reverse ETL
4️⃣ Active Metadata & Third-Gen Data Catalogs
5️⃣ Data Teams as Product Teams
6️⃣ Data Observability
В целом, видно смещение в область data governance и изменение парадигмы восприятия данных крупными компаниями не как побочного следствия жизнедеятельности продукта/сервиса/системы, а как одного из ключевых элементов — можно сказать топлива для принятия решений и для роста показателей (отсюда вытекает тезис «Data Teams as Product Teams»). Как следствие, увеличивающаяся демократизация данных и сфокусированность на всех сегментах потребителей данных (как менеджерах, так и analysts/data scientists), гибкость в архитектурных решениях (см. Data Mesh), но в то же время унификация для избежания рассогласованности (см. Data Catalogs и Metrics Layer), а также концентрация на качестве и устойчивости сбора данных (см. Data Observability + Data Quality является одной зон отвественности оунеров данных в рамках концепции Data Mesh)
Решил выложить серию постов про каждый из трендов с коротким описанием тренда и почему он значим:
- Пост про Data Mesh