Обложка канала

LEFT JOIN

5709 @leftjoin

Канал Николая Валиотти об аналитике и визуализации данных, data science и BI

LEFT JOIN

4 года назад
Открыть в
Состояние веб-парсинга в 2022 К 2022 году парсинг веб-сайтов стал чуть ли необходимостью, как для обычного человека (с небольшим знанием программирования), так и для бизнеса. Найти и просмотреть вручную все сайты с нужной информацией - крайне затратный по времени процесс и все, кто хочет его оптимизировать так или иначе нуждаются в методах парсинга. Сейчас мы вам расскажем все, что нужно знать о парсинге веб-данных и современных тенденциях. Если навыки программирования и желание есть: ▫️Language Agnostic Tools (Playwright, Selenium) ▫️Python и его библиотеки (Scrapy, Beautiful Soup, MechanicalSoup, Pyppeteer) ▫️JS (Cheerio, Puppeteer, Apify SDK) ▫️Java (Jaunt, jsoup) ▫️Ruby (Kimurai, Mechanize and Nokogiri Gems) ▫️PHP (Goutte) Если вы не умеете программировать или вам не хочется тратить на это время:Scraper API (для тех, кому нужно самое простое и бюджетное решение задачи) ▫Apify (для тех, кому хочется найти лучшее соотношение цены и качества) ▫Parsehub (для тех, кто готов потратиться, но совершенно не хочет использовать код) ▫Diffbot (для тех, кто ищет самый дорогой сервис с полным доступом к найденным данным) ▫Octoparse (похож на Parsehub, тоже минимально используется код) ▫ScrapingBee (для тех, кто хочет пользоваться поддержкой от разработчиков) Не забывайте, что за окном 2022 (как тут забыть, конечно), а это значит, что все действия по парсингу веб сайтов должны соответствовать законам и этическим нормам: ❕Парсить сайты лучше в непопулярное для посещения время, чтобы не перегружать сайт, который вы изучаете ❕Используйте только одно IP-соединение ❕Соблюдайте правила сайта/социальной сети, которую вы парсите ❕На некоторых веб-сайтах есть файл robots.txt, в котором перечислены правила и ограничения, которым должны следовать парсеры при автоматическом парсинге и взаимодействии с веб-сайтами. ❕Не нарушайте правила GDPR или CCPA Какие тренды в веб-парсинге в 2022 году? 🌎Такие платформы как LinkedIn, Facebook и Instagram стараются сделать все возможное, чтобы их сайты парсить стало труднее. Скорее всего в 2022 их политика будет ужесточаться и будут вводиться самые изощренные анти-бот системы. 🌎К счастью, данные, которые находятся в открытом доступе, запретить парсить практически невозможно. Единственное, что может быть не вполне легитимно - парсинг сайта при входе в систему. Будьте осторожны, если занимаетесь этим! Конечно, в 2022 году веб-скрапинг столкнется с некоторыми усложнениями и юридическими проблемами, однако в течение последних нескольких лет он сталкивался с этими проблемами ежегодно и благодаря этому стал сильнее. Пока что методы парсинга веб-сайтов стабильно на пару шагов опережают способы борьбы с ними. So far so good!
Fast and reliable end-to-end testing for modern web apps | Playwright

Cross-browser end-to-end testing for modern web apps

playwright.dev