robots.txt - Инструкции и секреты настройки

robots.txt - Инструкции и секреты настройки

Sadorimatsu

Проверенные
Сообщения
790
Решения
22
Реакции
586
Баллы
1,805
Sadorimatsu добавил(а) новый ресурс:

robots.txt - Инструкции и секреты настройки - Пособие для чайников по настройке robots.txt на XenForo 2+

В этом мануале дам все доступные варианты и наработки по шаблонам robots.txt и на каждом будет расписаны варианты настроек и предложений.

Базовые термины: (С чем работаем)​

  1. Краулер (Crawler) / Робот (Bot):
    Программа поисковой системы, которая сканирует страницы сайта и переходит по ссылкам. Примеры: Googlebot (Google), YandexBot (Яндекс), Bingbot (Bing) и т.д.
  2. Индексация (канонические URL):
    Процесс добавления информации о странице в...

Узнать больше об этом ресурсе...
 
Собрал все важные свои заметки в кучу, что-то поправил. Если считаете, что есть важная информация в теме, то перетащите сюда в тему и будем разбирать - Файл robots.txt или наоборот ошибки, ляпы или неактуальная информация, то сообщаем.
Мне иная информация особо не помогла, потому пользы для себя не увидел, может полезна будет другим, потому решаем сами.

P.S. За простыню простите, не ожидал, что так много всего накопится, позже поправлю и сокращу некоторые моменты для общего понимания.
 
Последнее редактирование:
Наконец-то!!! Портянка неимоверного текста но на 1 странице - нежели куча кода в 10ках страниц форума
 
Sadorimatsu обновил(а) ресурс robots.txt - Инструкции и секреты настройки новой записью:

Новая стратегия XF 2.3 v2

Новый шаблон 2.3:
Код:
User-agent: *
Disallow: /account/
Disallow: /attachments/
Disallow: /admin.php
Disallow: /birthdays/
Disallow: /cdn-cgi/
Disallow: /conversations/
Disallow: /forums/*/page-*
Disallow: /featured/
Disallow: /goto/
Disallow: /help/
Disallow: /lfs/
Disallow: /login/
Disallow: /lost-password/
Disallow: /members/
Disallow: /misc/
Disallow: /misc/cookies
Disallow: /misc/style-variation
Disallow: /misc/style?*
Disallow: /resources/authors/*/
Disallow: /resources/*/history
Disallow: /resources/*/reviews
Disallow: /resources/*/updates
Disallow: /resources/*/update/*/reactions
Disallow: /resources/categories/*/featured
Disallow: /resources/*?prefix_id=
Disallow: /online/
Disallow: /posts/*/reactions
Disallow: /register/
Disallow: /search/
Disallow: /tags/
Disallow: /threads/*/page-*
Disallow: /threads/*/reply
Disallow: /threads/*/who-replied/
Disallow: /whats-new/
Disallow: /*?accept=
Disallow: /*?_debug=
Disallow: /*?reject=
Disallow: /*?update=
Allow: /css/
Allow: /js/
Allow: /styles/

Sitemap: https://ВАШ_ДОМЕН/sitemap.xml

User-agent: Yandex
Crawl-delay: 1.5
Clean-param: content&user_id&prefix_id&desc&page&download_count&reject&accept&update&_debug&direction&order&tab_id&t&rating
Disallow: /account/
Disallow: /admin.php
Disallow: /forums/*/page-*
Disallow: /birthdays/
Disallow: /cdn-cgi/
Disallow: /conversations/
Disallow: /featured/
Disallow: /goto/
Disallow: /help/
Disallow: /lfs/
Disallow: /login/
Disallow: /lost-password/
Disallow: /members/
Disallow: /misc/
Disallow: /misc/cookies
Disallow: /misc/style-variation
Disallow: /resources/authors/*/
Disallow: /resources/*/history
Disallow: /resources/*/reviews
Disallow: /resources/*/updates
Disallow: /resources/*/update/*/reactions
Disallow: /resources/categories/*/featured
Disallow: /resources/*?prefix_id=
Disallow: /online/
Disallow: /posts/*/reactions
Disallow: /register/
Disallow: /search/
Disallow: /tags/
Disallow: /threads/*/page-*
Disallow: /threads/*/reply
Disallow: /threads/*/who-replied/
Disallow: /whats-new/

User-agent: Googlebot-News
Allow: /forums/-/index.rss

User-agent: YandexNews
Allow: /forums/-/index.rss

User-agent: adbeat_bot
User-agent: adsbot-google
User-agent: AhrefsBot
User-agent: AhrefsSiteAudit
User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot-Extended
User-agent: BLEXBot
User-agent: BuzzSumot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: Cliqzbot
User-agent: cohere-ai
User-agent: DataForSeoBot
User-agent: DeepCrawl
User-agent: Diffbot
User-agent: dotbot
User-agent: DotBot
User-agent: FacebookBot
User-agent: FlipboardProxy
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ia_archiver
User-agent: MegaIndex
User-agent: Mediapartners-Google
User-agent: Meta-ExternalAgent
User-agent: MJ12bot
User-agent: OAI-Embedder
User-agent: PetalBot
User-agent: PocketParser
User-agent: rogerbot
User-agent: Screaming Frog SEO Spider
User-agent: SemrushBot
User-agent: seobots
User-agent: SEOkicks
User-agent: SiteBulb
User-agent: spbot
Disallow: /

User-agent: Applebot
Crawl-delay: 1

User-agent: Ask
Crawl-delay: 2

User-agent: Baiduspider
Crawl-delay: 3

User-agent: bingbot
Crawl-delay: 1.5

User-agent: DuckDuckBot
Crawl-delay: 1

User-agent: FindSounds
Crawl-delay: 2

User-agent: Googlebot
Crawl-delay: 0.5

User-agent: Mail.Ru
Crawl-delay: 2

User-agent: PerplexityBot
Crawl-delay: 2

User-agent: Phind
Crawl-delay: 2

User-agent: StartPage
Crawl-delay: 2

User-agent: TinEye
Crawl-delay: 2

User-agent: trendictionbot
Disallow: /

User-agent: Waldo
Crawl-delay: 2

User-agent: Wolfram
Crawl-delay: 3

User-agent: YaCy
Crawl-delay: 5

User-agent: Yeti
Crawl-delay: 2

User-agent: YouBot
Crawl-delay: 2
Упорядочен список ботов, переписаны запреты, удалено лишнего с общего блока и продублированы некоторые запреты в блок яндекса, потому что было подтверждено, что яндекс игнорит многое с общего блока.

Узнать больше об этом обновлении...
 
Последнее редактирование:
Всем доброго утра.
Вот что пишет Яша по поводу ключа:

73982319348.png
 
Всем доброго утра.
Вот что пишет Яша по поводу ключа:

Посмотреть вложение 161530
К XF 2.3 это не относится. Он вшит в ядро. Это для, тех у кого нет адаптации. Можно конечно ключ вытащить и поставить по рекомендации, но разницы не будет. Вы можете лично в этом убедиться. Вытащите свой ключ, и без вставки в корень текстовика с ним, проверьте сразу работу без него и после с ним. Разницы не будет. 😁
Однако, XF рекомендует не светить ключом на него, потому решение вшить его в ядро было и в целях безопасности. Кстати, у кого версия 2.2 и ниже, то им для работы потребуется вставить свой ключ в корень домена. А уж как генерировать ключ, написано на офе - . Однако, как по мне на версиях ниже он тупо не нужен.
 
Последнее редактирование:
У последнего обновления шаблона, убрал Disallow: /*#post-
Судя по индексации, слишком общий учёт, что блочил почти всё, перестарался. Если у вас есть, удалите. Ресурсы точно заблочит. 😅

Кстати, на пользу всем, используйте Индексирование - Анализ robots.txt. У гугла вроде тоже есть нечто подобное...
1774025027313.png
к32к32к13.png
Кто может не знает, инструмент служит для анализа, правильно ли вы заблокировали нужный вам путь или обработчик. Он так же запоминает все ваши прошлые исправления основного robots.txt и можно переключится сразу на прошлую версию и проверить, где как работало и протестировать на месте все правки, он все правки держит тут, на изменения основного не влияет. Хороший полигон для тестов.
 
Последнее редактирование:
Для тех, кто использует фильтр роутинга на resources. У меня например, вместо него указан mods, но всё равно проскальзывает.
1774169122555.png
Если увидите в вебмастере обход такого:
https://ВАШ_ДОМЕН/index.php?resources/%D0%A9%D0%B8%D1%82-%D0%98%D1%81%D0%B3%D1%80%D0%B0%D0%BC%D0%BE%D1%80%D0%B0-%D0%B2%D0%BE%D0%B3%D0%BD%D1%83%D1%82%D1%8B%D0%B9.149/update/163/reactions
То закрываем везде:
Disallow: /index.php?resources/
До него у меня стоял просто запрет на Disallow: /resources/, но как вижу, недостаточно.
А так, это типичный запрет на:
/resources/*/update/*/reactions, в моём случае у меня стоит так /mods/*/update/*/reactions
Который при роутинге не сработал, а так стоило добавить на 2.3 новое обозначение reactions, то вот и ловим подобное.🤨

Для справки всем. Если вы используете фильтр роутинга на базовые адреса, то обязательно на их основные имена ставьте блок в индексации, иначе будете ловить дубли на одно и тоже по разным URL.
 
Последнее редактирование:
А зачем страницы обсуждений закрываются?

Disallow: /threads/*/page-*

Частенько в гуглах встречал полезные, информативные комментарии, благодаря которым заходил на сайт.
 
CHEL74, потому что это пагинация, дубли одной оригинальной страницы. Если вас не смущают ошибки на это, то можете открыть. Для яндекса точно закрывать надо, а на общем можете и открыть. Тут вам решать, что индексировать, только потом на букет ошибок не удивляемся.

Конкретно по запрету на который вы указали - это список тем (по принципу Страница 1, Страница 2...) и на индексацию никак не повлияет т.к. блокирует не сами темы, а страницы к ним, которые не несут полезной информации. Посты не закрываются в этом правиле. Для полного их блока, закрывается /posts/, а этого делать с 2.3 не рекомендуется при включении IndexNow. Тем самым, полезные комментарии никуда не денутся.

А вот реакции на них Disallow: /posts/*/reactions, как раз закрывать надо, это мусор.
 
Последнее редактирование:
Конкретно по запрету на который вы указали - это список тем (по принципу Страница 1, Страница 2...) и на индексацию никак не повлияет т.к. блокирует не сами темы, а страницы к ним, которые не несут полезной информации. Посты не закрываются в этом правиле. Для полного их блока, закрывается /posts/, а этого делать с 2.3 не рекомендуется при включении IndexNow. Тем самым, полезные комментарии никуда не денутся.
А, вон оно как работает. Хорошо, благодарю за разъяснение.

Но есть ещё одна проблема (если её можно так назвать), у меня гугл ругается на все Crawl-delay и Clean-param. Говорит, что это правила, которые не учитывает Googlebot.
 
Но есть ещё одна проблема (если её можно так назвать), у меня гугл ругается на все Crawl-delay и Clean-param. Говорит, что это правила, которые не учитывает Googlebot.
Потому что он и не учитывает их и будет игнорить, но только он, а вот другие нет. Если вас смущают ошибки, то вы просто можете создать блок для гугла, как у яндекса и прописать аналогичные правила с общего, но убрав оттуда Crawl-delay и Clean-param, тогда он будет их игнорировать и читать тока свой блок. Ведь в приоритете будет он.
 
Последнее редактирование:
Потому что он и не учитывает их и будет игнорить, но только он, а вот другие нет. Если вас смущают ошибки, то вы просто можете создать блока для гугла, как у яндекса и прописать аналогичные правила с общего, но убрав оттуда Crawl-delay и Clean-param, тогда он будет их игнорировать и читать тока свой блок. Ведь в приоритете будет он.
К сожалению, реакции новорегам недоступны, поэтому могу поблагодарить только текстом. Спасибо, так и сделаю)
 
А вот это правило из вашего robots.txt не будет работать, получается?
Код:
User-agent: Googlebot
Crawl-delay: 0.5
Раз не учитывает гугл User-agent
 
CHEL74, 50/50, учитывая, что правило лишь тормозит скорость обработки сайта от бота, не более. Правило не запрещает его. Если он его игнорит, то значит правило избыточно. Я ведь гугл толком не копал в вопросе анализа, только яндекс. Когда с яндекс доведем по индексации, почти до идеала, то можно будет и за гугл взяться. Кто на него опирается, будет полезно, если будете сообщать отчёты, на что он ругается по текущим правилам, особенно от общего блока. Будем дорабатывать.
 
Если вас смущают ошибки, то вы просто можете создать блок для гугла, как у яндекса и прописать аналогичные правила с общего, но убрав оттуда Crawl-delay и Clean-param, тогда он будет их игнорировать и читать тока свой блок. Ведь в приоритете будет он.
Добавил вот это:
Код:
User-agent: Googlebot
Disallow: /account/
Disallow: /attachments/
Disallow: /admin.php
Disallow: /birthdays/
Disallow: /cdn-cgi/
Disallow: /conversations/
Disallow: /forums/*/page-*
Disallow: /featured/
Disallow: /goto/
Disallow: /help/
Disallow: /lfs/
Disallow: /login/
Disallow: /lost-password/
Disallow: /members/
Disallow: /misc/
Disallow: /misc/cookies
Disallow: /misc/style-variation
Disallow: /misc/style?*
Disallow: /resources/authors/*/
Disallow: /resources/*/history
Disallow: /resources/*/reviews
Disallow: /resources/*/updates
Disallow: /resources/*/update/*/reactions
Disallow: /resources/categories/*/featured
Disallow: /resources/*?prefix_id=
Disallow: /online/
Disallow: /posts/*/reactions
Disallow: /register/
Disallow: /search/
Disallow: /tags/
Disallow: /threads/*/page-*
Disallow: /threads/*/reply
Disallow: /threads/*/who-replied/
Disallow: /whats-new/
Disallow: /*?accept=
Disallow: /*?_debug=
Disallow: /*?reject=
Disallow: /*?update=
Allow: /css/
Allow: /js/
Allow: /styles/
Гугл всё равно ругается. Даже на содержимое блоков для других ботов.
 
потому что это пагинация, дубли одной оригинальной страницы
Как это может быть дублем при разном содержимом?
Посты не закрываются в этом правиле. Для полного их блока, закрывается /posts/, а этого делать с 2.3 не рекомендуется при включении IndexNow.
Переход на posts/PID приведет к перенаправлению на threads/TID/page-N/#post-PID, в этом случае сообщения будут проиндексированы или все же правило тоже применится? Сообщение может быть отображено через posts/PID/show, но из коробки на эту страницу приводит только кнопка отображения удаленного сообщения.
 
Как это может быть дублем при разном содержимом?
Если говорить конкретно о том правиле Disallow: /threads/*/page-*, то он блокирует "страницы", а не темы, не посты, а страницы тем, которые имеют из общего тока заголовок от форума и его мета описания, больше ничего. Полезности 0, дубли 100%.
Переход на posts/PID приведет к перенаправлению на threads/TID/page-N/#post-PID, в этом случае сообщения будут проиндексированы или все же правило тоже применится?
Воспроизвёл правило и честно, я не увидел, чтобы он его блокировал, от слова совсем ничего. Что по прямому /posts/ что /forums/posts/, хотя на офе такое правило у них прописано, я не думал его проверять, раз указано, а выходит оно избыточно. Вот если прописать Disallow: /*post-, то он будет блочить любой созданный пост. Если прописать это Disallow: /*#post-, то вообще заблочит абсолютно всё (темы, ресурсы, посты), как недавно сам убедился. Так что, ваши доводы не беспочвенны. Хорошо, что обратили внимание, наглядно проверил.
 
Последнее редактирование:
Добавил вот это:
Код:
User-agent: Googlebot
Disallow: /account/
Disallow: /attachments/
Disallow: /admin.php
Disallow: /birthdays/
Disallow: /cdn-cgi/
Disallow: /conversations/
Disallow: /forums/*/page-*
Disallow: /featured/
Disallow: /goto/
Disallow: /help/
Disallow: /lfs/
Disallow: /login/
Disallow: /lost-password/
Disallow: /members/
Disallow: /misc/
Disallow: /misc/cookies
Disallow: /misc/style-variation
Disallow: /misc/style?*
Disallow: /resources/authors/*/
Disallow: /resources/*/history
Disallow: /resources/*/reviews
Disallow: /resources/*/updates
Disallow: /resources/*/update/*/reactions
Disallow: /resources/categories/*/featured
Disallow: /resources/*?prefix_id=
Disallow: /online/
Disallow: /posts/*/reactions
Disallow: /register/
Disallow: /search/
Disallow: /tags/
Disallow: /threads/*/page-*
Disallow: /threads/*/reply
Disallow: /threads/*/who-replied/
Disallow: /whats-new/
Disallow: /*?accept=
Disallow: /*?_debug=
Disallow: /*?reject=
Disallow: /*?update=
Allow: /css/
Allow: /js/
Allow: /styles/
Гугл всё равно ругается. Даже на содержимое блоков для других ботов.
Он ругается на то, что вы вообще ему заблокировали всё это. 😁 Как у себя проверил, он как раз ругается мне на то, что я блокирую и у яндекса. В принципе, можете игнорить, а можете открыть ему всё, хотя до изменений, у вас видимо и было всё открыто, но он всё равно ругался. Сложно судить алгоритмы гугла, требует дополнительного разбора. Пока, могу посоветовать добавить в свой robots, шаблон, который вы найдёте во вкладке "Обновление", вот прям смело можете ставить полностью и уже в течении недели увидите первые результаты и приятные. По гуглу не скажу, ему вечно всё не нравится.😒 До него руки тоже дойдут, просто он пока не в приоритете.
 
Последнее редактирование:
Sadorimatsu, хеш-ссылки, вероятно, можно блокировать, так как они ведут на ту же страницу, что и без хеш-части. posts/* нет смысла оставлять — там нет ничего полезного для ботов. Но вот смысла в блокировке страниц темы я не нахожу, так как дублирования там нет (за исключением первого сообщения при некоторых типах тем).
 
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу