Говорим про SEO и внутреннюю кухню студии.
Основной контент из корпоративного seo-чата «АлаичЪ и Ко».
Автор канала: @VictimAlex (Александр Алаев, АлаичЪ).
В свете максимального интереса к ChatGPT, зарубежные веб-мастера переживают и не хотят, чтобы контент их сайтов использовался для обучения.
Для обучения GPT-3 (и GPT-3.5) используются определенные наборы данных, среди которых есть краулинг (сканирование сайтов).
Я знаю, что вам не интересно, что к чему и почему, поэтому сразу к сути:
- Есть бот, которого зовут Common Crawl (CCBot).
- CCBot, как и все порядочные боты, следует правилам из robots.txt.
- Так что вы можете заблокировать сканирование своего сайта.
- Для этого надо добавить в файл robots.txt две строки:
User-agent: CCBotDisallow: /
- Или можно использовать meta robots на страницах:
<meta name="CCBot" content="noindex nofollow">
Надо иметь в виду, что это рекомендации из не официальных источников, так что все может однажды измениться.
А если сайт уже был просканирован, собранные данные никак нельзя удалить.
Проклятые капиталисты 👊🏻