Обложка канала

R4marketing | канал Алексея Селезнёва | Язык R

Автор канала Алексей Селезнёв, руководитель отдела аналитики в Netpeak, автор R пакетов: ryandexdirect, rfacebookstat и др. В канале публикуются статьи, доклады, новости, заметки по языку R.

R4marketing | канал Алексея Селезнёва | Язык R

4 года назад
Открыть в
​​Парсим RRS с помощью R RSS (англ. Rich Site Summary — обогащённая сводка сайта) — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами или онлайн-сервисами. (википедия) Практически любой материал, который можно разделить на отдельные части, можно публиковать с помощью RSS: например, статьи, объявления о последних публикациях в "wiki", история изменений, внесенных в книгу и тд. В R есть ряд пакетов для чтения и парсинга RSS потоков. Ниже я приведу пример работы с tidyRSS. Этот пакет позволяет указать url адрес RSS потока, запрашивает его и преобразует в аккуратный фрейм. Парсим RSS хабра, именно хаба по R.
 
library(tidyRSS)
url <- 'https://habr.com/ru/rss/hub/r/'

rss_fead <- tidyfeed(url)
В результате вы получите таблицу, с информацией о 20 последних публикациях в хабе R:
 
tibble [20 × 14] (S3: tbl_df/tbl/data.frame)
 $ feed_title          : chr [1:20] "R – Язык для статистической обработки данных" ...
 $ feed_link           : chr [1:20] "https://habr.com/ru/hub/r/all/" ...
 $ feed_description    : chr [1:20] "R – Язык для статистической обработки данных" ...
 $ feed_language       : chr [1:20] "ru" ...
 $ feed_managing_editor: chr [1:20] "[email protected]" ...
 $ feed_pub_date       : POSIXct[1:20], format: "2022-06-10 19:05:38" ...
 $ feed_category       : Named chr [1:20] "Python" ...
  ..- attr(*, "names")= chr [1:20] "category" ...
 $ feed_generator      : chr [1:20] "habr.com" ...
 $ item_title          : chr [1:20] "Кто за всех решил, что python удобен для «гражданской» аналитики?" ...
 $ item_link           : chr [1:20] "https://habr.com/ru/post/670250/?utm_campaign=670250&utm_source=habrahabr&utm_medium=rss" ...
 $ item_description    : chr [1:20] "«Гарри Поттер и философский камень», (2001)ИТ-шником (программистом) нынче быть привлекательно. Дата саентистом"| __truncated__ ...
 $ item_pub_date       : POSIXct[1:20], format: "2022-06-08 07:32:44" ...
 $ item_guid           : chr [1:20] "https://habr.com/ru/post/670250/" ...
 $ item_category       :List of 20
#заметки_по_R