Канал, посвященный анализу данных с помощью Python. Не столько про машинное обучение, сколько про подготовку/очистку/предобработку данных, использование Python для получения данных из API, парсинга веб-сайтов, автоматизации различной рутины
Тренды в сфере работы с данными 2022. Основной пост2️⃣ Metrics Layer
Принятие решение в data-driven бизнесах основывается на метриках. При этом для качественного принятия решения различными акторами/юнитами требуется, чтобы метрика могла быть одинаково подсчитываема всеми участниками. То есть не должно быть такого, что в Отделе A метрику считают по одной методологии, а в Отделе B метрика считается совсем по-другому из-за того, что они используют другой BI-инструмент
Другое важное условие — это то, что метрика должна быть рассчитываема в разных срезах, за разный временной срок, разными отделами для разных нужд, с разной точностью. Одна и та же метрика может использоваться по-разному. Аналитическому отделу для оценки результатов A/B-тестирования нужен инструмент получения атомарных данных, на основе которых рассчитывается эта метрика в эксперименте. Отделу Data Science данные по этой метрике могут быть нужны в real-time для использования в алгоритме. А операционному блоку нужна просто агрегированная метрика за последние 30 дней в разрезе регионов. Но с точки зрения бизнес-логики расчетов все эти потребители должны получать одинаковую метрику
Metrics Layer — это технологическое решение, позволяющее обеспечить однозначность метрики, её документированность, вычислимость для различных нужд (с разной скоростью и разной точностью вычислений), качество и стандартизированность получения
Ещё Metrics Layer называют Headless BI (безголовый BI), потому что по сути это такой business intelligence as code, то есть без графического интерфейса. Графический интерфейс в виде BI-платформы с дашбордам уже прикручивается сверху на Headless BI в случае, если для решения бизнес-задачи нужна визуализация метрики, но внутри BI-платформы не зашивается бизнес-логика расчёта метрики
Больше всего мне понравилось описание унифицированной платформы расчёта метрик uMetric от Uber. Они хорошо описали основные вызовы, которые их платформа решает с помощью унификации подсчёта метрик
Мы ищем Python-разработчиков в штат Яндекс.Практикума.
Создаём социально значимый продукт и бизнес: помогаем нашим студентам получить новую цифровую профессию или навык.
Бэкенд-разработчику в Практикуме предстоит:
→ проектировать и внедрять новые форматы прохождения курсов, проектных работ;
→ добавлять на платформу новые тренажёры для студентов;
→ внедрять запуск кода на новых языках программирования;
→ развивать инструменты для машинного обучения и анализа данных;
→ проектировать архитектуру и инфраструктуру для новых внешних и внутренних сервисов;
→ ускорять работу платформы во всем мире, чтобы помогать Практикуму завоевывать новые рынки.
Мы будем рады видеть в нашей команде человека, который
— умеет программировать на языке Python,
— знает SQL и работал с реляционными базами данных,
— работал в Docker и с различными облачными сервисами,
— разрабатывал веб-сервисы.
Вас ждёт работа с гибким графиком: удалённая или в офисе с тренажёрным залом и йогой. А ещё:
◾️ интересные задачи, возможность влиять на процесс и результат;
◾️ сильная команда, с которой можно расти;
◾️ опционная программа;
◾️ программа жилищных займов под 3% или без процентов;
◾️ ДМС для вас и 80% стоимости ДМС для супругов и детей;
◾️ премии каждые полгода для всех, кто успешно прошел ревью;
◾️ компенсация оплаты питания и мобильной связи;
◾️ оплата обучения и участия в профильных конференциях
◾️ скидки у партнёров компании.
Если вы не из Москвы — поможем с переездом.
→Почитать подробности и откликнуться на вакансию
Тренды в сфере работы с данными 2022. Основной пост
1️⃣ Data Mesh
Признаться честно, меня всегда пугают новые термины, которым нельзя дать конкретное определение. На мой взгляд, такие термины рискуют стать buzzword. Data Mesh как раз такой термин — дать его определение в одном предложении сложно. Это не какая-то конкретная технология/технологический стек или процесс. Правильнее назвать это концепцией хранения данных
Data Mesh появляется в противовес централизованным хранилищам данных. Можно сказать, что это микросервисная архитектура хранения данных, в которой существует некоторое количество разнородных источников данных с высокой атомарностью
У каждого хранилища может быть свой бизнесовый оунер (продуктовая команда, бизнес-юнит, департамент), своя команда дата-инженеров или дата-менеджеров и своя собственная внутренняя архитектура. По сути каждый оунер становится владельцем некоторого куска данных, которым он волен распоряжаться самостоятельно в соответствии с целями, которые стоят перед ним. Такой подход обеспечивает гибкость бизнес-юнитам и позволяет быстрее концентрироваться на стратегических и тактических целях в обход «инфраструктурной бюрократии», которая возникает при централизации. Полная свобода в принятии решении о дата-архитектуре
Но при этом важным моментом является то, что эта свобода налагает ответственность перед любым потребителем данных, например, смежной продуктовой командой или аналитическим отделом любого департамента. Эта ответственность заключается в том, чтобы обеспечить удобный открытый интерфейс к данным, качество данных, их документацию, политики безопасности. То есть любой потребитель должен прийти за данными и получить то, что он хочет с минимумом болей. При этом, потребителем может выступать как менеджер, которому нужен self-service интерфейс, так и data engineer, которому нужен доступ к raw data, так и аналитик, которому необходима некоторая витрина
Как мне кажется, этот подход применим для крупных организаций, где существует несколько бизнес-юнитов или крупных продуктовых команд, но при этом возникает регулярная потребность обмена данными
Почитать про принципы Data Mesh можно вот тут
Наткнулся на любопытную статью с описанием 6 трендов в сфере работы с данными, которые будут (а может и не будут) популярны в 2022
Список такой:
1️⃣ Data Mesh
2️⃣ Metrics Layer
3️⃣ Reverse ETL
4️⃣ Active Metadata & Third-Gen Data Catalogs
5️⃣ Data Teams as Product Teams
6️⃣ Data Observability
В целом, видно смещение в область data governance и изменение парадигмы восприятия данных крупными компаниями не как побочного следствия жизнедеятельности продукта/сервиса/системы, а как одного из ключевых элементов — можно сказать топлива для принятия решений и для роста показателей (отсюда вытекает тезис «Data Teams as Product Teams»). Как следствие, увеличивающаяся демократизация данных и сфокусированность на всех сегментах потребителей данных (как менеджерах, так и analysts/data scientists), гибкость в архитектурных решениях (см. Data Mesh), но в то же время унификация для избежания рассогласованности (см. Data Catalogs и Metrics Layer), а также концентрация на качестве и устойчивости сбора данных (см. Data Observability + Data Quality является одной зон отвественности оунеров данных в рамках концепции Data Mesh)
Решил выложить серию постов про каждый из трендов с коротким описанием тренда и почему он значим:
- Пост про Data Mesh
Data-аналитик в Яндекс Банк
Один из самых молодых и перспективных сервисов Яндекса в поисках data-аналитика. Задач много и все они действительно важны. Если вы устали от бесконечного построения отчетов в Экселе и хотите, чтобы результат вашего труда влиял на пользовательский опыт миллионов клиентов и экономику Банка – эта вакансия для вас.
Команда собралась отличная: есть ребята из других сервисов Яндекса и есть коллеги, которые раньше уже работали в финтех-проектах. На видео — руководитель аналитики Саша подробнее рассказывает о том, чем предстоит заниматься.
Если сложности вас не пугают, а мотивируют, и вы хотите быстро прокачаться и вырасти вместе с новым проектом – переходите на страницу, откликайтесь! После небольшой проверочной задачи можно будет сразу попасть в телеграм к эйчару и договориться о встрече. Удачи!
Хорошая статья на Хабре с подборкой прикладных задач аналитики данных, решённых на SQL. Отличный материал для того, чтобы рассмотреть различные подходы и самые распространенные проблемы на понятных и доступных примерах. Например, есть задачи на работу с пропущенными значениями, временными рядами и дубликатами. В общем, всё что я обычно всегда играючи делал в Pandas, но как решить на SQL меня всегда смущало (уж не силён я в нём)
https://habr.com/ru/company/otus/blog/541882/
Привет, Хабр! У кого из вас black belt на sql-ex.ru, признавайтесь? На заре своей карьеры я немало времени провел на этом сайте, практикуясь и оттачивая навыки. Должен отметить, что это было...
По статистике 7 часов ежедневно мы проводим онлайн, половину тратим впустую. Станьте исключением и присоединяйтесь к каналу "AI анализ и развитие", в котором вы найдете знания о:
• машинном обучении (data science, нейросетях);
• секретах продуктивности и
личного развития;
• методиках анализа и критической оценки информации;
• а на десерт - интересные факты и юмор.
Погрузитесь в мир аналитики и прокачайте навыки 21 века вместе со специалистом, который сделает ваше путешествие понятным и увлекательным.
Подписывайтесь на @ai_analysis
Аналитик DWH (от Junior до Senior)
Москва и Московская область
130–250 тысяч рублей
В IT-компании Accenture, входящей в список 500 крупнейших компаний и 100 лучших работодателей мира, открыта позиция аналитика DWH.
Чем предстоит заниматься:
— выявлять требования к данным, сценарии их использования и анализа в корпоративном хранилище данных и отчетности в тесном взаимодействии с бизнес-подразделениями;
— проектировать логическую модель данных корпоративного ХД (детальный слой и витрины данных) и ETL-процессы интеграции данных с различными системами-источниками;
— анализировать причины расхождений данных в различных витринах корпоративного хранилища данных, участвовать в определении эталонных данных;
— проводить тестирование и приемку готового функционала;
— реализовывать проверки качества данных, организовывать их исправление.
Требования к кандидатам:
— опыт работы в проектах по DWH;
— уверенные знания SQL;
— понимание теории баз данных;
— навыки проектирования схем данных для транзакционных и аналитических систем (3NF, Data Vault, «звезда», «снежинка», OLAP), ETL-процессов.
Мы предлагаем:
— регулярное повышение дохода и достойный годовой бонус;
— уникальную команду из лучших экспертов на рынке, с которыми ты будешь работать бок о бок каждый день;
— лучшую страховку для тебя и семьи с 1 рабочего дня;
— 33 дня отпуска в году;
— обучение, сертификации, международные тренинги за счет компании;
— новый iPhone как часть welcome pack.
Рассматриваем все резюме:
[email protected]@aliya861
Алексей Селезнев опубликовал на хабре статью, в которой собрал пакеты реализующие на R популярные приёмы Python.
● Декораторы
● Множественное присваивание
● Списковые включения
● Индексирование с нуля
● Обработка исключений (try - except)
● Классическое ООП в R
● Логирование (logging)
● Работа с табличными данными (pandas)
https://habr.com/ru/post/587480/
Подписывайтесь на канал Алексея про использование языка R – https://t.me/R4marketing
🧑🎓 Матрица компетенций BI-аналитика
Сделал матрицу компетенций, она родилась за год большой работы по менторству BI-аналитиков и «сериала» с Русланом. С радостью и гордостью хочу поделиться ей с комьюнити. Получилось круто.
Матрица будет полезна и новичкам — есть подсветка проседающих навыков и ссылки на учебные материалы. И компаниям — для составления планов развития сотрудников.
Необходимо оценить себя по 68 навыкам из 6 направлений, которые важны BI-аналитику на мой взгляд. Каждый навык имеет уровень «прокачки» от 1 до 4 и описание, с примером ожиданий знаний от уровня. Но это только пример, при сомнениях, оцените навык по ощущениям от «джун» до «лид».
Матрица – не истина в последней инстанции, а ориентир и быстрый способ оценить себя. В идеале должна заполняться вместе с ментором, кто мог бы валидировать результат и дать практику.
Большое спасибо всем, кто помогал и участвовал в тестировании. Буду рад идеям, ссылкам и примерам результатов в комментариях.
🔗 Ссылка
#избранное
SQLpedia - канал про SQL и базы данных, в котором вы найдете:
— Возможность предложить нам статью для перевода;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;
Полезности с канала:
— Шпаргалка по SQL
— Выбор СУБД
— Обзор типов и подходов БД
Присоединяйтесь, давайте расти как профессионалы вместе 😉
Подписаться: @sql_wiki
Вышел достойный внимания Tableau Data Viz Catalogue от Zen Master Toan Hoang - сборник туториалов по построению чартов. Такой viz каталог адаптируется в BI культуру компании - работает как "How to" инструкция для разработчиков и дополняет BI стайл гайд.
Этот пример отличается различимым авторским почерком, здесь мне кажется 20% чартов имеют нетипичный и интересный (хотя местами на любителя) дизайн.
Есть и другие хорошие виз-каталоги tableau:
- Design Tip Catalogue | by Zak Geis (увидел у Reveal the Data)
- The Tableau Chart Catalog by Kevin Flerlage
- Tableau Cook Book by Josh Weyburne
- Visual Vocabulary by Andy Kriebel
#tableautips #инфодизайн
3 причины подписаться на аккаунт @selectel🔥
1. Основы программирования простым языком и без снобизма.
2. Полезные факты о железе, дата-центрах и хостингах.
3. Актуальные новости из IT.
Подписывайся, чтобы получать больше IT-материалов и каждый день узнавать что-то новое!
Чтобы понимать, как в продукте создается ценность, важно спрашивать себя - как именно клиенты пользуются вашим продуктом:
-- есть фичи которыми пользуются интенсивно в течение дня, но не регулярно.
-- а бывает наоборот - клиенты пользуются фичами регулярно в течение месяца, но не так интесивно в течение дня.
Я уже делился постом про Матрицу Вовлеченности — простой и эффективный инструмент для ранжирования фич по популярности и интенсивности использования. Павел Левчук написал второй пост из серии постов про продуктовую аналитику по мотивам своего выступления на Матемаркетинг-2021 — про Матрицу Интенсивностиecommerce-in-ukraine.blogspot.com/2021/12…rix.html
BIpedia - канал про BI аналитику, в котором вы найдете:
— Возможность предложить нам статью для перевода;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;
Полезности с канала:
— Зарплаты BI специалиста
— Инструменты для анализа
— Развитие BI систем
Присоединяйтесь, давайте расти как профессионалы вместе 😉
Подписаться: @bi_wiki
МТС проведет онлайн-митап для дата-сайентистов, дата-инженеров и специалистов по машинному обучению 👨💻
Беседа начнется 2 декабря в 18.00, зарегистрироваться можно здесь.
Речь, в том числе, пойдет о нюансах обучения бустингов на CPU против GPU и о том, как в МТС налажено взаимодействие между командами DS и MLOps. Также руководитель отдела аналитики в Яндекс.Еде поделится лайфхаками в ML-проектах.