Парсим RRS с помощью R
RSS (англ. Rich Site Summary — обогащённая сводка сайта) — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами или онлайн-сервисами. (википедия)
Практически любой материал, который можно разделить на отдельные части, можно публиковать с помощью RSS: например, статьи, объявления о последних публикациях в "wiki", история изменений, внесенных в книгу и тд.
В R есть ряд пакетов для чтения и парсинга RSS потоков. Ниже я приведу пример работы с tidyRSS. Этот пакет позволяет указать url адрес RSS потока, запрашивает его и преобразует в аккуратный фрейм.
Парсим RSS хабра, именно хаба по R.
library(tidyRSS)
url <- 'https://habr.com/ru/rss/hub/r/'
rss_fead <- tidyfeed(url)
В результате вы получите таблицу, с информацией о 20 последних публикациях в хабе R:
tibble [20 × 14] (S3: tbl_df/tbl/data.frame)
$ feed_title : chr [1:20] "R – Язык для статистической обработки данных" ...
$ feed_link : chr [1:20] "https://habr.com/ru/hub/r/all/" ...
$ feed_description : chr [1:20] "R – Язык для статистической обработки данных" ...
$ feed_language : chr [1:20] "ru" ...
$ feed_managing_editor: chr [1:20] "[email protected]" ...
$ feed_pub_date : POSIXct[1:20], format: "2022-06-10 19:05:38" ...
$ feed_category : Named chr [1:20] "Python" ...
..- attr(*, "names")= chr [1:20] "category" ...
$ feed_generator : chr [1:20] "habr.com" ...
$ item_title : chr [1:20] "Кто за всех решил, что python удобен для «гражданской» аналитики?" ...
$ item_link : chr [1:20] "https://habr.com/ru/post/670250/?utm_campaign=670250&utm_source=habrahabr&utm_medium=rss" ...
$ item_description : chr [1:20] "«Гарри Поттер и философский камень», (2001)ИТ-шником (программистом) нынче быть привлекательно. Дата саентистом"| __truncated__ ...
$ item_pub_date : POSIXct[1:20], format: "2022-06-08 07:32:44" ...
$ item_guid : chr [1:20] "https://habr.com/ru/post/670250/" ...
$ item_category :List of 20
#заметки_по_R