Библиотека(@hacckingbook). Getting Structured Data from the Internet (2020) Автор: Jay M. Patel Эта книга выходит за рамки осн

Getting Structured Data from the Internet (2020) Автор: Jay M. Patel Эта книга выходит за рамки основ веб-парсинга и охватывает такие сложные темы, как обработка естественного языка и текстовая аналитика для извлечения имен людей, мест, адресов электронной почты, контактных данных и т. п. Работая с книгой, вы научитесь использовать скрипты на Python для масштабного сканирования веб-сайтов, извлечения данных со страниц и преобразования их в форматы структурированных данных, таких как CSV, Excel, JSON, или загрузки в базу данных SQL по вашему выбору. Во время чтения книги вы: ✔Разберётесь в простом парсинге веб-страниц; ✔Разработаете веб-парсер с нуля, используя lxml и библиотеку BeautifulSoup; ✔Используете облачные вычисления на основе AWS с EC2, S3, Athena, SQS и SNS для анализа, извлечения и хранения полезной информации из просканированных страниц; ✔Используете язык SQL; ✔Используете данные веб-сканирования для создания системы анализа настроений в отношении новостей или для альтернативного финансового анализа, охватывающего торговые сигналы фондового рынка; ✔Напишете готовый к работе сканер на Python с использованием фреймворка Scrapy и рассмотрите практические обходные пути капчи, ротации IP-адресов и т. д. Достоинства: ➕Пошаговый стиль повествования; ➕Актуальность материала. Скачать книгу…