Обложка канала

Интернет-маркетинг простым языком от WEDEX

• Веб-аналитика • SEO-продвижение • Социальные сети • Контент-маркетинг • Контекстная реклама • Рассылка • А/В тестирование

Интернет-маркетинг простым языком от WEDEX

4 года назад
Открыть в
Что такое XPath и с чем его едят? Сразу уточним, в нашем случае едят его SEO-специалисты с огромным желанием спарсить информацию с сайтов конкурентов или со своего сайта для анализа. XPath — это такой язык запросов к элементам xml или html документа. Работа XPath-запросов построена на декларативном языке запросов, то есть, чтобы получить нужные данные необходимо всего лишь корректно задать запрос, описывающий эти данные, а все остальное сделает интерпретатор языка XPath. Удобно? А как же, удобно и просто если понимать этот язык. А какие возможности есть у XPath для нас, то есть для SEO-специалистов? Давайте разбираться. Основные возможности XPath Какие данные можно спарсить? 1️⃣ Любую информацию из кода практически с любого сайта. Тут важно понимать, мы можем попасть на сайт с защитой от парсинга. Например, спарсить любой сайт Яндекса не получится. Тоже самое касается и Авито, тоже довольно-таки сложно. Но большую часть сайтов можно успешно спарсить. 2️⃣ Цены, наличие товаров и предложений, тексты, любые текстовые характеристики, изображения и даже 3D-фото. 3️⃣ Описание, отзывы, структуру сайта. 4️⃣ Контактную информацию (например почту), неочевидные свойства и т.д. Все элементы на странице, которые есть в коде сайта можно успешно выгрузить в Excel. Какие есть ограничения при парсинге через XPath? 📌 Бан по user-agent. Некоторые сайты запрещают доступ парсерам у которых в user-agent указано что это программа. Это ограничение можно обойти, если в настройках выставить юзер-агент поисковой системы, например. Для этого переходим в Configuration> User-Agent и выбрать YandexBot или Googlebot. 📌 Запрет в robots.txt. Для обхода этого запрета нужно перейти в настройки Screaming Frog в Configuration> Robots.txt> Settings и выбирать «Игнорировать robots.txt» 📌 Бан по IP. Тут есть несколько вариантов решения проблемы: использовать VPN или в настройках снизить скорость парсинга сайта, чтобы не вызывать подозрения и не попасть под ограничения.