На западе существует такое понятие, как парадокс sitemap.xml, информацию о котором опубликовали разработчики Stack Overflow в 2010. Заключается он в следующем:
1. Сайтмапы нужны для сайтов, которые сложно краулить. 2. Если Google находит ссылку в sitemap, но при этом не находит ссылку из навигации, то он не дает ей веса и не проиндексирует (в 2019 - скорей не проиндексирует).
Google не дает никаких гарантий, что документ, найденный по ссылке в sitemap.xml, будет проиндексирован.
— Даже если вы создали файл Sitemap, это не гарантирует, что Google будет сканировать и индексировать все ваши страницы, так как эти процедуры выполняются при помощи сложных алгоритмов. Цитата
Такой вот выходит парадокс.
Получается, ссылки в sitemap это лишь рекомендации, и более важными будут ссылки на сайте. То есть, разработка хорошей структуры сайта, чтобы поисковый робот мог найти каждую нужную страницу, это более важно, чем разработка sitemap.xml. По опыту Stack Overflow сайтмапы не помогают.
Стоит отметить, что Stack Overflow это большой сайт, с десятками млн трафика в сутки, 87% которого поисковый.
Google не мог пройти мимо и оставил полезный комментарий.
Сигналы из sitemap.xml используется в основном для следующих целей: — Обнаружения нового и обновления старого контента. — Обнаружения предпочтительных адресов для канонизации. — Отображения количества проиндексированных урлов в Search Console. — Отображения ошибок краулинга.
Мюллер также дает несколько рекомендаций вебмастерам: — Используйте краулер для поиска ошибок сканирования. С помощью краулера вы узнаете, какие страницы на сайте находятся, есть ли бесконечные циклы, способен ли сервер выдерживать нагрузку краулинга. — Проверьте, сколько на самом деле страниц на вашем сайте, и держите sitemap.xml "чистым" (без дубликатов). — Проверьте записи логов, где присутствует Googlebot. Если там есть страницы, которых нет в вашем sitemap, то нужно перепроверить внутреннюю перелинковку (возможно, еще robots.txt). — Проверьте, сколько страниц из sitemap на самом деле индексируется.
По словам Мюллера, для небольших сайтов sitemap, действительно, может быть лишним. Но в остальных случаях может оказаться полезным. Но, по-прежнему, гарантии не даются.
Если у вас проблема с краулингом сайта, но урлы есть в sitemap, то в первую очередь, конечно, нужно исправить структуру. — Джон Мюллер