Getting Structured Data from the Internet (2020)
Автор: Jay M. Patel
Эта книга выходит за рамки основ веб-парсинга и охватывает такие сложные темы, как обработка естественного языка и текстовая аналитика для извлечения имен людей, мест, адресов электронной почты, контактных данных и т. п. Работая с книгой, вы научитесь использовать скрипты на Python для масштабного сканирования веб-сайтов, извлечения данных со страниц и преобразования их в форматы структурированных данных, таких как CSV, Excel, JSON, или загрузки в базу данных SQL по вашему выбору.
Во время чтения книги вы:
✔Разберётесь в простом парсинге веб-страниц;
✔Разработаете веб-парсер с нуля, используя lxml и библиотеку BeautifulSoup;
✔Используете облачные вычисления на основе AWS с EC2, S3, Athena, SQS и SNS для анализа, извлечения и хранения полезной информации из просканированных страниц;
✔Используете язык SQL;
✔Используете данные веб-сканирования для создания системы анализа настроений в отношении новостей или для альтернативного финансового анализа, охватывающего торговые сигналы фондового рынка;
✔Напишете готовый к работе сканер на Python с использованием фреймворка Scrapy и рассмотрите практические обходные пути капчи, ротации IP-адресов и т. д.
Достоинства:
➕Пошаговый стиль повествования;
➕Актуальность материала.
Скачать книгу…