Обложка канала

LEFT JOIN. Страница 17

5709 @leftjoin

Канал Николая Валиотти об аналитике и визуализации данных, data science и BI

  • LEFT JOIN

    🍟 Яндекс, который не оправдал доверия пользователей Наверное, вы уже в курсе: Яндекс конкретно облажался. Весь рунет не первый день разглядывает карту заказов Яндекс.Еды, где и мы с вами, и ваши соседи, и все-все-все. Как минимум, все это крипово. Чем это опасно? В публичный доступ попали наши с вами персональные данные, которые обожают мошенники. Поэтому будьте бдительны, если вам теперь в точности назовут ваш адрес, смогут озвучить сумму ваших трат, назовут вас по имени и даже смогут сказать дату вашего заказа. Это прекрасно работает в социальной инженерии. Искренне считаю это позором службы безопасности Яндекса и крайне неудовлетворен официальным объяснением инцидента. Личный совет: по возможности, не указывайте свои реальные данные там, где нет необходимости это делать и не сохраняйте свои платежные данные во имя удобства оплаты. Раз хакерам удалось украсть эти данные, то значит и кража платежных данных тоже возможна. И в этом уж точно ничего хорошего не будет. Прекращаем нагонять ужас Раз так уже произошло мы будем как аналитики использовать эти данные во благо. Нет ничего круче, чем настоящий живой датасет для различных экспериментов. Мы скачали данные в полном объеме и загрузили их в Clickhouse, поэтому в скором времени постараемся поизучать датасет, поискать интересности в нем и показать наши находки, ведь интересные данные там точно присутствуют. Конечно, мы не собираемся потворствовать распространению личных данных клиентов и все результаты представим в обобщенном и обезличенном виде. Будьте осторожны и ждите актуальной аналитики услуг Яндекс.Еды 🍽
  • LEFT JOIN

    🍟 Где поесть в незнакомом городе? ☕️ В середине февраля мы с женой были в Грузии (несколько опередили массовую эмиграцию туда), где отмечали мой день рождения. Когда мы там оказались возник вопрос: какие заведения лучше посетить? Раньше я решал этот вопрос с использованием Foursquare, но он безнадежно устарел. Тут подключилась моя жена и начала поиски в инстаграм, которые меня безумно заинтересовали с точки зрения алгоритма. У нас было около десяти рекомендаций заведений от друзей, большое желание попасть в приятные места, доступ к интернету и Instagram (деятельность признана экстремистской и запрещена в Российской Федерации). Не то, чтобы всё это было абсолютно необходимо в поездке, но если уж начал собирать коллекцию, то к делу надо подходить серьёзно 😎 Так вот, супруга начала смотреть отметки людей в этих заведениях, а затем применяла какую-то магию, чтобы найти другие класные заведения, похожие на уже посещенные. Меня это очень заинтересовало и я подумал, что этот алгоритм можно автоматизировать. Так родилась идея рекомендатора через отметки в инстаграмме, который мы разбираем в новой статье. ⚡️ Очередное огромное спасибо Андрею за участие в работе над задачей!
  • LEFT JOIN

    💬 Интервью про карьеру в Data Science никогда не бывает много 🎤 До отъезда из России (об этом отдельно и чуть попозже) мы записали интервью с моим участием. Интервьюер – автор канала Start Career in DS Роман Васильев. Помимо нашего разговора, на канале есть куча полезной информации для новичков в профессии, настоятельно рекомендую вам изучить их. Рома – профессионал, поэтому наш разговор получился очень живым, удалось затронуть много актуальных тем и, надеюсь, раскрыть полезные детали карьерного пути 😎 Подписчики канала в комментариях уже шутят, что Рома – “Дудь в DS”. Действительно очень похоже, потому что от последних интервью вообще не оторваться: блестящее интервью с Толей Карповым (кстати, Толя всерьез посоревнуется за звание “Дудя в DS” c его собственными вью на ютубе), с Валерой Бабушкиным и другими гостями. Смотрите интервью, пока Youtube еще доступен в России, шерьте, комментируйте и подписывайтесь на канал Романа!
    Николай Валиотти: создатель LEFT JOIN и Valiotti Analytics

    SCiDS в tg: https://t.me/start_ds LEFT JOIN в tg: https://t.me/leftjoin В чём заключается специфика работы в аналитических стартапах? Какие навыки стоит развивать и почему важно для себя ставить конкретные цели? Николай Валиотти ответит на эти и многие другие вопросы в этом интервью! 00:00 - О чём интервью? 00:32 - Путь Николая в Data Science 10:35 - Действительно ли университетское образование может дать много полезных навыков? 19:18 - Про работу во время учёбы. Как можно применять знания из университета в индустрии? 25:22 - Как изменилась работа в Data-командах за последнее время? 26:45 - Чем бы Николай занимался если бы сейчас начинал карьеру? Какие области сейчас наиболее интересны? 28:36 - Насколько пересекаются сейчас роли в аналитике данных (BI/DA/DS/...)? Как устроено распределение работы с различными инструментами в Valiotti Analytics? 26:21 - Отличия работы в корпорации и в стартапах 38:04 - Что нужно чтобы попасть работать в стартап? 41:46 - Как Николай создавал Valiotti Analytics? Что нужно знать если хочешь создать свою аналитическую компанию? 46:49 - Как сейчас выглядит работа в Valiotti Analytics? 51:19 - Над какими проектами работает команда Николая? 53:13 - Что будет с рынком аналитики в ближайшее время? Ждёт ли DS-ов судьба юристов и экономистов? 58:50 - Какие ключевые Soft-скиллы стоит развивать аналитику? 1:01:16 - Как понять что происходит что-то не то? 1:06:21 - В чём миссия блога LEFT JOIN? 1:09:31 - Что важно держать в голове когда начинаешь развиваться в аналитике данных?

    YouTube
  • Реклама

  • LEFT JOIN

    Snowflake купил Streamlit. Почему это важно? 🌎 Несмотря на то, что в мире сейчас много политических изменений и экономических последствий этих изменений, мировой рынок технологий отнюдь не замирает. Некоторые сделки продолжаются в области анализа данных. 🥱 Как это обычно происходит? Рядовые пользователи зачастую не замечают ровным счетом никаких изменений после покупки одного бизнеса другим. Шрифты слегка меняются на общие корпоративные, появляются инфраструктурные интеграции обоих сервисов и… по большей части, это все. Однако, кажется, что у этой сделки бОльшие последствия. Бен Стенсил в своей еженедельной рассылке рассказал о большой сделке и объяснил ее важность. 🎰 Кто кого купил? Коротко пройдемся по основным моментам для большего понимания ситуации: Snowflake – очень популярная в Америке СУБД, Streamlit – open-source инструмент на базе Python для создания приложений и визуализации данных. На первый взгляд, ничего впечатляющего и цена покупки компании вполне средняя для этого рынка. 💸 В чем же кроется суть сделки? Покупка Streamlit – это серьезное стратегически взвешенное решение. Компания помогает создавать приложения для обработки данных с помощью пары строк кода. Такие приложения не являются классическими инструментами бизнес-аналитики, но они весьма популярны среди аналитиков. Давайте сравним эту сделку с другой громкой новостью: Google уволил весь персонал службы поддержки Looker в США. Зачем же это было сделано? BigQuery является центром притяжения стека данных Google. В то время как Looker получает стабильный доход, баланс Google отражает только те операции, которые приносят огромные доходы. Для Google Looker слишком велик, чтобы потерпеть неудачу, но слишком дорог для масштабирования. 📉 Зачем тогда Snowflake, самому прямому конкуренту BigQuery, вкладывать большие средства в Streamlit, в то время как Google поступает иначе? Ответ прост: потому что это не то, чем они обычно занимаются. Streamlit никогда не ступит в магический квадрант приложений Gartner и, скорее всего, даже не попытается вывести на рынок классический продукт. Вместо этого он станет чем-то более фундаментальным: платформой на которой создаются и продаются все остальные коммерческие приложения для работы с данными. Возможно, Streamlit даже станет катализатором серьезного сдвига в ландшафте данных, когда они разработают магазин приложений Snowflake. Таким образом, они смогут создать новую полноценную инфраструктуру, в которой все способствует удобной разработке приложений для работы с данными, а также существует маркетплейс для их размещения и распространения.
    Streamlit and Snowflake: better together

    Together, we’ll empower developers and data scientists to mobilize the world’s data

    Streamlit
  • LEFT JOIN

    В трудные времена нужно помогать друг другу 🤝☺️ Сейчас мы живем в реальности, где ежедневно сервисы анонсируют новые ограничения или повышают цены. В связи с этим, небольшой update для пользователей MProve: сервис Mprove Cloud будет бесплатным как минимум до 2023 года. На странице расценок сервисов показаны отличия между версиями Open Source, Cloud и Enterprise. Как видите, пока что мы оставляем открытым и бесплатным почти весь функционал Mprove. Небольшой список обновлений функционала: 1. ⚡️FINALLY! Появилась поддержка Clickhouse ⚡️ 2. Появились дашборды Дашборды и визуализации можно полностью создавать и редактировать через UI. Эти изменения автоматически отражаются в соответствующих файлах. Благодаря файлам можно легко обновлять SQL модели данных и поддерживать все в актуальном состоянии. 3. Создание фильтров и привязка фильтра к конкретному отчету дашборда при помощи кнопки “Edit Listeners” 4. Проработано разграничение по ролям Обновлен механизм контроля доступа к моделям, визуализациям и дашбордам (все подробности – в документации). 5. Теперь в демо-проекте показаны примеры моделей для BigQuery PostgreSQL и ClickHouse на основе одного датасета. Мелкие улучшения: 🪄Добавлены подсказки 🪄 Улучшено отображение фильтров 🪄 Улучшено отображение меню 🪄 Улучшено отображение ошибок при валидации файлов 🪄 Обновлена документация Регистрируйтесь, пробуйте, изучайте!
    Access Control | Mprove Docs

    Any Mprove user can create new organizations.

    mprove.io
  • LEFT JOIN

    Состояние веб-парсинга в 2022 К 2022 году парсинг веб-сайтов стал чуть ли необходимостью, как для обычного человека (с небольшим знанием программирования), так и для бизнеса. Найти и просмотреть вручную все сайты с нужной информацией - крайне затратный по времени процесс и все, кто хочет его оптимизировать так или иначе нуждаются в методах парсинга. Сейчас мы вам расскажем все, что нужно знать о парсинге веб-данных и современных тенденциях. Если навыки программирования и желание есть: ▫️Language Agnostic Tools (Playwright, Selenium) ▫️Python и его библиотеки (Scrapy, Beautiful Soup, MechanicalSoup, Pyppeteer) ▫️JS (Cheerio, Puppeteer, Apify SDK) ▫️Java (Jaunt, jsoup) ▫️Ruby (Kimurai, Mechanize and Nokogiri Gems) ▫️PHP (Goutte) Если вы не умеете программировать или вам не хочется тратить на это время:Scraper API (для тех, кому нужно самое простое и бюджетное решение задачи) ▫Apify (для тех, кому хочется найти лучшее соотношение цены и качества) ▫Parsehub (для тех, кто готов потратиться, но совершенно не хочет использовать код) ▫Diffbot (для тех, кто ищет самый дорогой сервис с полным доступом к найденным данным) ▫Octoparse (похож на Parsehub, тоже минимально используется код) ▫ScrapingBee (для тех, кто хочет пользоваться поддержкой от разработчиков) Не забывайте, что за окном 2022 (как тут забыть, конечно), а это значит, что все действия по парсингу веб сайтов должны соответствовать законам и этическим нормам: ❕Парсить сайты лучше в непопулярное для посещения время, чтобы не перегружать сайт, который вы изучаете ❕Используйте только одно IP-соединение ❕Соблюдайте правила сайта/социальной сети, которую вы парсите ❕На некоторых веб-сайтах есть файл robots.txt, в котором перечислены правила и ограничения, которым должны следовать парсеры при автоматическом парсинге и взаимодействии с веб-сайтами. ❕Не нарушайте правила GDPR или CCPA Какие тренды в веб-парсинге в 2022 году? 🌎Такие платформы как LinkedIn, Facebook и Instagram стараются сделать все возможное, чтобы их сайты парсить стало труднее. Скорее всего в 2022 их политика будет ужесточаться и будут вводиться самые изощренные анти-бот системы. 🌎К счастью, данные, которые находятся в открытом доступе, запретить парсить практически невозможно. Единственное, что может быть не вполне легитимно - парсинг сайта при входе в систему. Будьте осторожны, если занимаетесь этим! Конечно, в 2022 году веб-скрапинг столкнется с некоторыми усложнениями и юридическими проблемами, однако в течение последних нескольких лет он сталкивался с этими проблемами ежегодно и благодаря этому стал сильнее. Пока что методы парсинга веб-сайтов стабильно на пару шагов опережают способы борьбы с ними. So far so good!
    Fast and reliable end-to-end testing for modern web apps | Playwright

    Cross-browser end-to-end testing for modern web apps

    playwright.dev
  • LEFT JOIN

    BI-аналитика в условиях ограничений Сейчас в России люди многих профессий вынуждены отказываться от удобных рабочих решений ввиду новых ограничений, которые появляются ежедневно. Как известно, ограничения эти вводятся почти молниеносно, а когда они будут отменены – не известно. Но мы не собираемся еще сильнее вводить вас в панику или тревогу. Наоборот, мы считаем важным помогать вам своими знаниями и опытом настолько, насколько это возможно. Например, многие сейчас ищут качественную замену таким сервисам как Tableau и Power BI. В нашем гайде вы можете посмотреть на часть BI-инструментов (платные и бесплатные) и реализованные в них дашборды, отдельное внимание стоит уделить open-source инструментам. У нас также готов дашборд по Superset, но пока не успели записать видео. Stay tuned! ⚡️
  • LEFT JOIN

    Хочу выходить из затишья и постепенно публиковать контент, относящийся к делу. Я знаю, что сейчас многие талантливые как начинающие, так и более опытные ребята начинают искать работу. Мы продолжаем делать свои проекты в рамках Valiotti Analytics по всем направлениям. Ищем и джунов и миддлов с крепким знанием SQL / Python. Поэтому если вам интересно, откликайтесь на вакансию, а если вы миддл присылайте свое резюме мне в ЛС, а в ответ получите тестовое задание.
  • LEFT JOIN

    Друзья, первые дни я находился в абсолютно шоковом состоянии от происходящего. Я не понимаю как в здравом уме можно так вредить собственной и соседней странам, вероломно нарушать все конвенции, прописанные в ООН, да и моральные устои в принципе. Кажется, не так много времени прошло с предыдущей трагедии? Я персонально и все проекты, которыми я руковожу, категорически против войны. Предполагаю, что эта заметка в телеграмме вряд ли как-то изменит ситуацию и вернет жертвы. Однако молчать и не высказаться тоже не могу. Половина родственников нашей семьи в Украине, эмоции захлестывают, мы хотим скорейшего прекращения огня. Публикации в канале пока будут остановлены до изменения ситуации. Желаю всем мира.
  • LEFT JOIN

    Автор опубликовал cheatsheet для Google big query и Google Analytics.
    BigQuery SQL Cheat Sheet for GA4 - tanelytics.com

    A collection of some of the most common SQL formulas, plus a few extras, needed when working with the GA4 event data in BigQuery.

    tanelytics.com
  • LEFT JOIN

    Выглядит полезно 🙂
  • LEFT JOIN

    Если визуализация – это инструмент анализа, который обеспечивает наиболее эффективную работу по изучению данных, то инфографика – это уже готовые выводы, оформленные и структурированные показатели и закономерности. Собрали небольшую подборку хороших работ с канала Инфографика и факты: - Индекс айфона 2021 - Чем богаты депутаты ГосДумы 2021 - Почему растут цены на бензин - Почему вакцинацию стали искать чаще футбола и порно
  • LEFT JOIN

    Нужен ли нам Airflow или куча отдельных инструментов? Несколько дней назад в сети появился пост, который активно обсуждают до сих пор. Давайте разберемся, в чем дело и из-за чего сыр-бор. ⚡️ Итак, автор поста обращает внимание на эволюцию любых больших платформ: старт, развитие и неизбежную фрагментацию на более удобные и узкоспециализированные инструменты. Автор приводит пример, что много лет назад такое случилось с платформой Craigslist, а теперь, вероятно, это случится (или уже случилось) с Airflow. Airflow сейчас позволяет выполнять множество задач, связанных с данными; от операций по выгрузке и загрузке данных до создания отчетов, обработки с помощью Python и SQL-скриптов и синхронизации данных с BI-инструментами. Однако, уже существуют отличные самостоятельные инструменты, которые выполняют все эти задачи гораздо лучше, чем Airflow. Например, Fivetran и Airbyte можно использовать для загрузки и выгрузки данных, dbt — для преобразования данных, Census и Hightouch — для обратного ETL, Transform, Metriql, Supergrain — для метрик, Eppo — для экспериментов, MLOps — для машинного обучения. Все эти инструменты “отбирают” часть задач у Airflow и значительно трансформируют современный стек, который раньше часто строился внутри одного инструмента (платформы). ⚡️ Некоторые компании пытаются создать улучшенную версию Airflow, упрощая развертывание задач, делая их более масштабируемыми и т.д. Самой важной и обсуждаемой частью этого рассуждения стало то, что автор сомневается, что вообще есть необходимость в улучшении Airflow. Как он сам говорит: “Это похоже на попытку оптимизировать написание кода, который вообще не должен был быть написан“. Тристан из dbt комментирует: ⚡️ Кейсы Craigslist и Airflow серьезно отличаются, как минимум потому, что пользователь первой платформы мог нуждаться лишь в одной из функций, а вот специалисты в сфере работы с данными нуждаются во всех инструментах платформы, поскольку они тесно взаимосвязаны. ⚡️ Затем, он предлагает свое видение развития Airflow: поскольку одному специалисту или даже команде не бывают нужны сразу все инструменты, удобнее было бы иметь 3 платформы с инструментами для задач инженеров данных, аналитиков и ML-разработчиков. Тристан, как и прежде форсирует свою тему аналитических инженеров и отделяет их от всех остальных, что, конечно, dbt-юзерам очень нравится. ❓А вы что думаете про Airflow? Используете ли, пробовали ли Airflow как сервис в managed-исполнении?
    The Unbundling of Airflow

    If the unbundling of Airflow means all the heavy lifting is done by separate tools, what is left behind?

    Features & Labels Blog
  • LEFT JOIN

    Words Known Better by Males than Females, and Vice Versa

    The chart below visualizes words disproportionately known by one sex and not the other. The data comes from this table in a paper on Word prevalence norms for 62,000 English lemmas (via): In the dataset we selected, each word was judged on average by 388 participants (282 from the USA and 106 from the UK). The percentages of people indicating they knew the word ranged from 2% (for stotinka, adyta, kahikatea, gomuti, arseniuret, alsike, . . .) to 100% (. . . , you, young, yourself, zone, zoned). See also: Wo

    Observablehq
  • LEFT JOIN

    Влюблены в аналитику? VK подготовил для вас что-то крутое :) 26 и 27 февраля компания проведёт Weekend Offer по двум направлениям: экосистемной и продуктовой аналитике. А теперь коротко, но подробно, чем занимаются ребята в Data Office: • Экосистемная аналитика. Вы можете погрузиться в мир growth hacking, исследований и формирований гипотез для роста, разбор в кросс-девайсном и кросс-продуктовом матчинге при работе с сервисами VK. • Продуктовая аналитика. Это про формулирование гипотез, проведение исследований и A/Б-экспериментов, настройку аналитических мониторингов и отчётов. Ну и, конечно, вместе с командой вы будете запускать фичи внешних и внутренних сервисов экосистемы. Звучит круто! Аналитики, интересно? Тогда, не пропустите — у вас появилась возможность поменять работу всего за два дня. Успейте отправить заявку на участие до 25 февраля. Удачи! #реклама
  • Реклама

  • LEFT JOIN

    В коммьюнити часто обсуждается тема как интересно переквалифироваться и стать аналитиком / дата саентистом, но, например, есть и другая сторона медали. Недавно мне попался интересный пост на реддите, где чел рассуждает о том, что карьера дата саентиста крайне сложна и требует постоянного развития и улучшения навыков, просто чтобы оставаться "в игре". Автор пишет, что такая работа для него постоянный стресс и противопоставляет карьеру дата саентиста с водителем поезда / электрика, которые всего лишь каждый день выполняют свою работу. А дата саентист как будто всегда остается джуниором, если не улучшает свои навыки, потому что они регулярно устаревают. Что думаете? Согласны ли с этим утверждением?
    Anyone else feel the constant urge to leave the field and become a...

    I’m a data scientist/software developer and I keep longing for a simpler life. I’m getting tired of the constant need to keep up to date, just to...

    reddit
  • LEFT JOIN

  • LEFT JOIN

    Ремарка об исследовании онлайн-школ по аналитике данных Дискуссия по поводу исследования онлайн-школ оказалась оживленной — это объяснимо: мы громко заявили о себе, и с нас соответствующим образом спросили в комментариях. Ключевое: — я не делал это исследование по чьему-то заказу — нет органа, который меня контролирует в этом опросе и говорит мне как правильно, а как нет — я не планирую публиковать исследование в научном журнале и считать статистическую значимость различий в процентах на малой выборке. Если вам это интересно — возьмите данные и ответьте на свои вопросы с учетом статистической значимости, вся информация доступна. Если вы не верите в результаты или не видите ценности в этой работе — окей, это ваше право. Я хотел и получил реальный срез рынка от студентов основных школ индустрии, поделился результатами с коммьюнити. Почему я верю в результаты? Я абсолютно убежден в адекватности результатов, поскольку мы (я и моя команда) выборочно лично общались с респондентами, вручную проверяли и отсеивали ряд анкет на этапе подготовки данных перед созданием дашборда. Тем не менее, никаких гарантий. Может быть как на выборах: вбросы, карусельщики. Достоверных способов это определить у нас нет. В софтверной разработке это называется as-is. Ответственность за использование результатов на вашей стороне. Для меня все выводы имеют большую ценность, и я еще раз убедился в ряде своих гипотез относительно школ и их выпускников. Зачем я делал исследование? Я нанимаю людей к себе в компанию и вижу проблемы с компетенциями ряда школ, скоро расскажу об этом голосом в подкасте. Я хотел узнать, что думают сами студенты о качестве образования. Мне полезно понять как оценивают студенты эффективность трудоустройства, добились ли они своих целей, чем различаются школы в оценках между собой, насколько в них сложно учиться. На все вопросы я получил исчерпывающие ответы и интересные истории учащихся, о которых скоро расскажем в подкасте. P.S. Спасибо энтузиастам и профессионалам за ценные замечания: аргументированные комментарии по делу принимаются с благодарностью! P.P.S. Каждый раз удивляет токсичность рунета, в этом полностью согласен с Димой Аношиным. Все так и есть: делаешь что-то полезное, полностью за свой счет, получаешь в комментариях хейт, переход на личности, хейт пораждает следующий хейт в виде частных мнений людей, тотально не вникающих в материал (на военной кафедре у нас это называлось ОБС — «одна бабка сказала»).
    Инжиниринг Данных

    Личный бренд - нужен или не нужен? А если нужен, с чего начать. Personal Brand - достаточно популярный термин в корпоративном мире. Его можно делать, а можно не делать. Каждый решает для себя. Личный бренд нельзя создать за месяц, и возможно и года будет мало. Это ваша репутация в индустрии, это ваше имя, которое ассоциируются с чем-то, как правило с вашими заслугами в том, чем вы занимаетесь и в том, что вы любите. Ведь вы должны любить то, что делаете!=) Я постарался ответить себе на вопросы: 1) что такое личный бренд в моем понимании 2) хорошой бренд = суперстар? 3) помогает ли бренд получить работу? 4) как создать свой бренд? 5) какие преимущества у бренда 6) какие недостатки у личного бренда 7) бренд для РФ или запада? 8) токсичная среда у нас и позитивная за границей. (Хабр, реакция на ошибки) 9) нужно ли вам создавать личный бренд? Time Codes: - 0:15 Что такое личный бренд - 1:36 Создание личного бренда - 8:40 Создали бренд - что дальше - 10:50 Создание бренда на Западе и в России - 13:29 Заключение…

    Telegram