Обложка канала

R4marketing | канал Алексея Селезнёва | Язык R. Страница 12

Автор канала Алексей Селезнёв, руководитель отдела аналитики в Netpeak, автор R пакетов: ryandexdirect, rfacebookstat и др. В канале публикуются статьи, доклады, новости, заметки по языку R.

  • R4marketing | канал Алексея Селезнёва | Язык R

    ▪️Напоследок дня собрали для Вас подборку IT каналов: 🖥 Чайников.нет — автор канала рассказывает о тонкостях работы с ПК и софтом, одна ссылка заменит тысячу курсов и сайтов. 😱IT Texnologe — 90% людей не знают эти нереальные новые технологии! 🎆Javascript — канал поможет реально можно вырасти до проф разработчика. 🙌 Типичный Верстальщикавторский канал веб-разработчицы, где освещается преимущественно верстка сайтов и фронтенд. 💻 '_blank' rel='noreferrer nofollow' href='https://t.me/busines_it'>БИЗНЕС it — канал с лучшими кейсами и инсайтами для заработка в сет#, полезные инструменты для продвижения товаров или услуг - ONLINE. 👨‍💻 Programmer Way — блог о фронтенде и не только. Полезные статьи, мысли и фишки + чат для общения. 👉 @@gd_code — канал, в котором ты сможешь посмотреть правила хорошего кода для проектов на: React, JavaScript, TypeScript. 👾 '_blank' rel='noreferrer nofollow' href='https://t.me/itsec_news'>ITsec News — новые уязвимости ПО и сайтов, утечки приватных данных, разоблачение хакеров. Если кредитную систему «Сбера» взломают, об этом напишут здесь! 💼 job for devs — лучшие вакансии в сфере IT. Высокооплачиваемая работа доступна из любой точки мира! ☝️Настоятельно рекомендуем подписаться на все каналы
  • R4marketing | канал Алексея Селезнёва | Язык R

  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Валидация данных с помощью пакета assertr Пакет assertr так же предназначен для валидации данных, перед их анализом. В качестве примера проверим встроенный набор данных mtcars на удовлетворение следующим условиям: ● что у него есть столбцы mpg, vs и am; ● что набор данных содержит более 10 наблюдений; ● что столбец mpg (миль на галлон) состоит только из положительных чисел; ● что столбец mpg (миль на галлон) не содержит данных, выходящих за пределы 4 стандартных отклонений от его среднего значения, и ● что столбцы am и vs (автоматический/ручной и v/прямой двигатель соответственно) содержат только 0 и 1; ● каждая строка содержит не более 2 NA; ● каждая строка уникальна совместно между столбцами mpg, am и wt; ● расстояние Махаланобиса каждой строки находится в пределах 10 медианных абсолютных отклонений всех расстояний (для обнаружения выбросов). Пример кода реализующий эту проверку:
    library(assertr)
    
    mtcars %>%
          verify(has_all_names("mpg", "vs", "am", "wt")) %>%
          verify(nrow(.) > 10) %>%
          verify(mpg > 0) %>%
          insist(within_n_sds(4), mpg) %>%
          assert(in_set(0,1), am, vs) %>%
          assert_rows(num_row_NAs, within_bounds(0,2), everything()) %>%
          assert_rows(col_concat, is_uniq, mpg, am, wt) %>%
          insist_rows(maha_dist, within_n_mads(10), everything()) %>%
          group_by(cyl) %>%
          summarise(avg.mpg=mean(mpg))
    
    
    
    Функционал пакета assertr: ● verify() - Принимает дата фрейм и логическое выражение. Если указанное логическое выражение возвращает FALSE, функция останавливается с ошибкой. ● assert() - Принимает дата фрейм, функцию реализующую валидацию, и список столбцов, к которым будет применяться функция. ● insist() - Принимает дата фрейм, функцию генерации предикатов и произвольное количество столбцов. Данный приём рекомендуется использовать в случаях, когда границы предельных значений заранее неизвестны, и генерируются динамически. ● assert_rows()- Принимает дата фрейм, функцию расчёта значение в рамках текущей строки, и функцию предиката, ограничивающую диапазон допустимых значений, и список столбцов, на основе которых будут проходить вычисления и проверка. ● insist_rows() - Принимает дата фрейм, функцию расчёта значения для каждой строки, функцию предиката, генерирующую динамически допустимые пределы диапазона проверки (например функция maha_dist(), которая определяет наличие явных выбросов), и список столбцов. Далее в связке с перечисленными выше функциями используются функции - предикаты: В связке с assert() и assert_rows(): ● not_na()- проверяет, не является ли элемент NA; ● within_bounds()- возвращает функцию предиката, которая проверяет, попадает ли числовое значение в предоставленные границы; ● in_set() - возвращает функцию предиката, которая проверяет, является ли элемент членом предоставленного набора. (также допускает инверсию для «не в наборе»); ● is_uniq() - проверяет уникальность элементов. В связке с insist() и insist_rows(): ● within_n_sds() - используется для динамического создания границ для проверки векторных элементов на основе стандартных z-показателей; ● within_n_mads() - лучший метод динамического создания границ для проверки векторных элементов на основе «надежных» z-показателей (с использованием медианного абсолютного отклонения). В связке с assert_rows() и insist_rows(): ● num_row_NAs() - подсчитывает количество пропущенных значений в каждой строке; ● maha_dist() - вычисляет расстояние Махаланобиса для каждой строки (для обнаружения выбросов). При необходимости он преобразует категориальные переменные в числовые; ● col_concat() - склеивает значение всех строк в одну строку; ● duplicated_across_cols() - проверяет, содержит ли строка дубликаты в рамках указанных столбцов. В связке с verify(): ● has_all_names() - проверьте, есть ли в таблице или списке все предоставленные имена; ● has_only_names() - проверьте, что таблица или список имеют только запрошенные имена; ● has_class() - проверяет, имеют ли переданные данные определенный класс. #заметки_по_R
  • Реклама

  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Запускаем RStudio и R 4.2.0 в браузере без смс и регистрации Перейдя по ссылке, подождите несколько минут, и в браузере откроется полноценная серверная RStudio с установленным R 4.2.0. Зачем это надо? В основном это будет полезно тем, кто только хочет начать учить R, и ему лень устанавливать локально RStudio и R, тут вам ничего делать не надо, перешли по ссылке и выполняете задания из курса, который проходите - удобно. Параметры сессии:
     
    sessionInfo()
    
    R version 4.2.0 (2022-04-22)
    Platform: x86_64-pc-linux-gnu (64-bit)
    Running under: Ubuntu 20.04.4 LTS
    
    
    #заметки_по_R
  • R4marketing | канал Алексея Селезнёва | Язык R

    ⚡️ Аналитика данных - блог ведущего Дата саентиста, работающего в Uber, одного из авторов 🔥 Machine Learning ru. Материал канала поможет реально вырасти до профессионала по работе с данными. 1 канал вместо тысячи учебников и курсов, подписывайтесь: 👇👇👇 🚀 @data_analysis_ml
  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Кто за всех решил, что python удобен для «гражданской» аналитики? Автор: Илья Шутов (@iMissile) Описание: Вся аргументация «за питон» строится исключительно по принципу «не думать», «рука рынка, «ну у нас же уже есть в проде 10 строк кода на питоне, что же делать?». Хотя элементарные технологические тесты и оценка экономической эффективности частенько дают неопровержимые доказательства, что DS питон является безответным поглотителем доли ИТ бюджета компаний. Взглянем ниже более пристально на отдельные моменты. #статьи_по_R
  • R4marketing | канал Алексея Селезнёва | Язык R

    Средняя зарплата Бизнес-Аналитика составляет 1500$-2500$. Тем не менее на рынке сейчас большая нехватка крутых специалистов! Присоединяйся к нам чтобы узнать все про бизнес-анализ! Здесь вы найдете: — Переведенные статьи; — Полезные видео; — Интересные опросы; — Профессиональный юмор; Полезности с канала: — Шпаргалка по SQL Инструменты для бизнес-анализа Визуализация данных Успей залететь в бизнес-анализ, пока это не стало мейнстримом и стань крутым специалистом вместе с нами!😉 Подписаться: @ba_wiki
  • R4marketing | канал Алексея Селезнёва | Язык R

  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Обновления пакетов rgoogleads и rfacebookstat Друзья, подъехали небольшие обновления пакетов для работы с Google Ads API и Facebook Marketing API. Для пользователей данные обновления пройдут практически незаметно, тем не менее рекомендую пакеты обновить, т.к. они были переведены на актуальные версии API. ● rgoogleads переведён на работу с Google Ads API v 10.1.0 (не самая последняя версия, но более актуальная, чем та которая была в предыдущей версии пакета) ● rfacebookstat переведён на работу с Facebook Marketing API v14.0 Обновление пакетов:
     
    install.packages('rgoogleads')
    install.packages('rfacebookstat')
    
    
    Полезные ссылки: - Плейлист с уроками по работе с rgoogleads - Плейлист с уроками по работе с rfacebookstat #новости_и_релизы_R
  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​R + Spotify: изучаем свою активность Автор: Юрий Тукачев (@psych2016) Хороший пример построения тепловой карты. Скачать данные по истории прослушивания можно в аккаунте Spotify, в разделе "Privacy settings" > "Download your data". Среди наборов данных будет "Streaming history for the past year".
     
    streamHistory <- fromJSON("MyData/StreamingHistory0.json", flatten = TRUE)
    
    #Форматируем дату и добовляем время, день недели
    mySpotify <- streamHistory %>% 
      as_tibble() %>% 
      mutate_at("endTime", ymd_hm) %>% 
      mutate_at("endTime", format, tz = "Asia/Yekaterinburg") %>%
      mutate_at("endTime", as_datetime) %>%
      mutate(date = floor_date(endTime, "day") %>% as_date, 
             seconds = msPlayed / 1000, 
             minutes = seconds / 60,
             weekday = weekdays(date, abbreviate = TRUE),
             hour = hour(endTime))
    
    mySpotify %>% 
      mutate(weekday = factor(weekday, levels = rev(c("Пн","Вт","Ср","Чт","Пт","Сб","Вс")))) %>%
      group_by(weekday, hour) %>% 
      summarize(minutesListened = sum(minutes)) %>% 
      ggplot(aes(x = hour, weekday, fill = minutesListened)) + 
      geom_tile(color = "white", width = 0.98, height = 0.98) + 
      scale_y_discrete(expand = c(0,0)) +
      scale_x_continuous(breaks = seq(0,24,1), expand = c(0,0)) + 
      scale_fill_gradient("Минут прослушивания", low = "yellow", high = "red") +
      labs(x = "Время дня", y = "", caption = "Данные: Spotify  Визуализация: Юрий Тукачев") + 
      ggtitle("Когда я чаще всего слушал музыку на Spotify за последний год?", 
              "Еженедельная активность прослушивания по часам дня недели") +
      guides(fill = guide_colorbar(title.position = 'top', title.hjust = .5,
                                    barwidth = unit(15, 'lines'), barheight = unit(.5, 'lines'))) +
      theme(plot.title.position = "plot", text = element_text(size = 14, family = "Roboto Mono"),
            plot.caption.position = "plot",
            plot.caption = element_text(color = "gray"),
            plot.subtitle = element_text(color = "gray"),
            legend.position = "top", 
            panel.background = element_blank(),
            plot.margin = margin(25, 25, 10, 25),
            axis.ticks = element_blank())
    
    
    #заметки_по_R
  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Курс Основы языка программирования R Автор: Артём Голубничий 1. Знакомство со средой разработки RStudio 2. Основы работы с языком R 3. Базовые типы данных и структуры 4. Векторы 5. Сортировка векторов 6. Арифметика векторов 7. Индекирование векторов 8. Базовая графика 9. Условные выражения 10. Определение функций. Область видимости. 11. Циклы 12. Функционалы 13. Tidyverse. Концепция tidy данных 14. Грамматика данных. Пакет dplyr 15. Tibble 16. Операторы . и do 17. Условные выражения в tydiverse #курсы_по_R
  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Валидация данных в R Для валидации, т.е. проверки корректности данных в R удобно использовать пакет data.validator. Функции реализующие валидацию данных: ● validate_if()validate_cols()validate_rows() Цикл проверки: 1. Создаёте объект отчёта функцией data_validation_report() 2. Загрузите набор данных, который необходимо валидировать. 3. Инициируйте процесс валидации: 3.1. Запустите конвейер проверки, начиная с функции validate(). 3.2. Используйте функции validate_*() и предикаты для проверки данных. Вы можете создавать собственные предикаты. См. пример в примере ниже функцию between(). 3.3. Добавьте результаты проверки в отчет с помощью add_results(). 4. Выведите результат проверки в консоль через print(), или создайте отчет в формате HTML используя save_report(). Пример:
     
    library(assertr)
    library(magrittr)
    library(data.validator)
    
    report <- data_validation_report()
    
    validate(mtcars, name = "Проверяем таблицу mtcars") %>%
      validate_if(drat < 0, description = "Столбец drat содержит только положительные значения") %>%
      validate_cols(in_set(c(0, 2)), vs, am, description = "Значения столбцов vs и am равны только 0 или 2") %>%
      validate_cols(within_n_sds(1), mpg, description = "Столбец mpg в прделах 1го стандартного отклонения") %>%
      validate_rows(num_row_NAs, within_bounds(0, 2), vs, am, mpg, description = "Количество пропущенных значений в строках не превышает 2") %>%
      validate_rows(maha_dist, within_n_mads(10), everything(), description = "Расстояние Махаланобиса не превышает 10 медианных абсолютных отклонений") %>%
      add_results(report)
    
    between <- function(a, b) {
      function(x) { a <= x && x <= b }
    }
    
    validate(iris, name = "Проверяем набор данных iris") %>%
      validate_if(Sepal.Length > 0, description = "Значения столбца Sepal length положительные") %>%
      validate_cols(between(0, 4), Sepal.Width, description = "Значения столбца Sepal находятся в диапазоне от 0 до 4") %>%
      add_results(report)
    
    # выводим результат в консоль
    print(report)
    
    # Создаём HTML отчёт
    save_report(report, success = FALSE)
    browseURL("validation_report.html")
    Большинство проверок в приведённом примере реализованы на базе пакета assertr, о котором мы тоже поговорим более подробно немного позже. Смотрите также: - Пакет framecleaner является обёрткой над dplyr::mutate(), и предоставляет несколько функций для краткого решения общих проблем, возникающих при приведении в порядок небольших и средних наборов данных #заметки_по_R
  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Видео четвёртой лекции курса "Введение в пространственный анализ и моделирование в R" от ЕУ Спб. Описание: Егор Котов продолжил тему моделирования с темами spatial lag/autoregressive model, spatial error model и рассказал про пакеты spdep, spatialreg, rgeoda. Это финальная лекция данного курса. Смотрите так же: - Анонс и программа курса "Введение в пространственный анализ и моделирование в R" - Конспект и видео первой лекции - Конспект и видео второй лекции - Конспект и видео третей лекции #курсы_по_R
  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Видео урок "Работа с пространственными объектами с помощью пакета sp" sp - сокращение от Spatial Poligons (пространственные полигоны), данный пакет предоставляет методы для манипулирования пространственными данными. Автор: Артём Голубничий Ссылки: - видео лекция - практика Смотрите так же: - Работа с картами с помощью пакета tmap - Учебник "Пространственная статистика и моделирование на языке R" #видео_уроки_по_R
  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Визуализация: 100 дней войны Визуализацию прислал один из подписчиков канала.
     
    library(calendR)
    library(tidyverse)
    # Data
    data <- c(55:154)
    weekdays_lbls <- c("Пн", "Вт", "Ср", "Чт", "Пт", "Сб", "Вс")
    calendR(year = 2022, title = "100 days of war", text.size = 10, 
            day.size = 3, weeknames = weekdays_lbls,
            lty = 0, papersize = "A5", font.family = "Open Sans", 
            days.col = "gray90", 
            title.size = 28, title.col = "red", 
            text.col = "gray90",
            special.days = data,
            special.col = "black",
            orientation = "portrait")
    ggsave("100days.png", dpi = 150, width = 7, height = 9)
    
    
    #заметки_по_R
  • Реклама

  • R4marketing | канал Алексея Селезнёва | Язык R

    ▪️Напоследок дня собрали для Вас подборку IT каналов: 🖥 Чайников.нет — автор канала рассказывает о тонкостях работы с ПК и софтом, одна ссылка заменит тысячу курсов и сайтов. 🔝 'noreferrer nofollow' href='https://t.me/+RxYzhuBcX1ZiOTNi'>Шпаргалки программиста — самые полезные гайды и материалы в шпаргалках. Материалы , которые помогут выйти на новый уровень в программирование. ⚡️ Просто: разработка — Свежие статьи по фронтенду каждый день. YouTube-канал с уроками, а также чат на тысячу человек — прилагаются. 🙌 Типичный Верстальщикавторский канал веб-разработчицы, где освещается преимущественно верстка сайтов и фронтенд. 👾 '_blank' rel='noreferrer nofollow' href='https://t.me/itsec_news'>ITsec News — новые уязвимости ПО и сайтов, утечки приватных данных, разоблачение хакеров. Если кредитную систему «Сбера» взломают, об этом напишут здесь! 👨‍💻 Programmer Way — блог о фронтенде и не только. Полезные статьи, мысли и фишки + чат для общения. 💼 job for devs — лучшие вакансии в сфере IT. Высокооплачиваемая работа доступна из любой точки мира! ☝️Настоятельно рекомендуем подписаться на все каналы
  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Видео третей лекции, и анонс четвёртой лекции курса "Введение в пространственный анализ и моделирование в R" от ЕУ Спб. Видео третей лекции Предыдущая, третья лекция была посвящена подготовке к пространственному моделированию, пространственной автокорреляции и тесту Морана. Конспект и видео этой лекции уже доступны по ссылке. Анонс четвёртой лекции В эту субботу преподаватель Факультета городского и регионального развития ВШЭ Егор Котов продолжит тему моделирования с темами spatial lag/autoregressive model, spatial error model и расскажет про пакеты spdep, spatialreg, rgeoda. Митап будет только онлайн! 4 июня в 18:00 Ссылка на трансляции: us02web.zoom.us/j/81529…29793127 Смотрите так же: - Анонс и программа курса "Введение в пространственный анализ и моделирование в R" - Конспект и видео первой лекции - Конспект и видео второй лекции - Ссылка на трансляцию четвёртой лекции #курсы_по_R
  • R4marketing | канал Алексея Селезнёва | Язык R

    ​​Рекомендательная система комиксов на R Автор: Пономарев Павел-Рафаэль Цели и Задачи: Цель проекта - создать рекомендательную систему для комиксов, которая бы предсказывала, какие книги будут интересны пользователю, имея информацию о книгах, которые он предпочитает. Оценка качества модели будет основана на внутренней пользовательской оценке и проверке на адекватность модели. План проекта: - Текстовый анализ описания книг и рецензий на них - Построение рекомендательной системы на основе коллаборативной фильтрации - Оценка качества построения первой модели - Построение рекомендательной системы на основе содержательной оценки книг - Оценка качества построения второй модели - Проверка моделей на основе внешних сценариев - Общие выводы - Ответы на вопросы #статьи_по_R

© Telegram-site 2018-2026

Сайт про Telegram каналы(неофициальный) | Почта для связи: [email protected]