robots.txt - Инструкции и секреты настройки

robots.txt - Инструкции и секреты настройки

Sadorimatsu

Проверенные
Сообщения
774
Решения
22
Реакции
573
Баллы
1,805
Sadorimatsu добавил(а) новый ресурс:

robots.txt - Инструкции и секреты настройки - Пособие для чайников по настройке robots.txt на XenForo 2+

В этом мануале дам все доступные варианты и наработки по шаблонам robots.txt и на каждом будет расписаны варианты настроек и предложений.

Базовые термины: (С чем работаем)​

  1. Краулер (Crawler) / Робот (Bot):
    Программа поисковой системы, которая сканирует страницы сайта и переходит по ссылкам. Примеры: Googlebot (Google), YandexBot (Яндекс), Bingbot (Bing) и т.д.
  2. Индексация (канонические URL):
    Процесс добавления информации о странице в...

Узнать больше об этом ресурсе...
 
Собрал все важные свои заметки в кучу, что-то поправил. Если считаете, что есть важная информация в теме, то перетащите сюда в тему и будем разбирать - Файл robots.txt или наоборот ошибки, ляпы или неактуальная информация, то сообщаем.
Мне иная информация особо не помогла, потому пользы для себя не увидел, может полезна будет другим, потому решаем сами.

P.S. За простыню простите, не ожидал, что так много всего накопится, позже поправлю и сокращу некоторые моменты для общего понимания.
 
Последнее редактирование:
Наконец-то!!! Портянка неимоверного текста но на 1 странице - нежели куча кода в 10ках страниц форума
 
Sadorimatsu обновил(а) ресурс robots.txt - Инструкции и секреты настройки новой записью:

Новая стратегия XF 2.3 v2

Новый шаблон 2.3:
Код:
User-agent: *
Disallow: /account/
Disallow: /attachments/
Disallow: /admin.php
Disallow: /birthdays/
Disallow: /cdn-cgi/
Disallow: /conversations/
Disallow: /forums/*/page-*
Disallow: /featured/
Disallow: /goto/
Disallow: /help/
Disallow: /lfs/
Disallow: /login/
Disallow: /lost-password/
Disallow: /members/
Disallow: /misc/
Disallow: /misc/cookies
Disallow: /misc/style-variation
Disallow: /misc/style?*
Disallow: /resources/authors/*/
Disallow: /resources/*/history
Disallow: /resources/*/reviews
Disallow: /resources/*/updates
Disallow: /resources/*/update/*/reactions
Disallow: /resources/categories/*/featured
Disallow: /resources/*?prefix_id=
Disallow: /online/
Disallow: /posts/*/reactions
Disallow: /register/
Disallow: /search/
Disallow: /tags/
Disallow: /threads/*/page-*
Disallow: /threads/*/reply
Disallow: /threads/*/who-replied/
Disallow: /whats-new/
Disallow: /*?accept=
Disallow: /*?_debug=
Disallow: /*?reject=
Disallow: /*?update=
Allow: /css/
Allow: /js/
Allow: /styles/

Sitemap: https://ВАШ_ДОМЕН/sitemap.xml

User-agent: Yandex
Crawl-delay: 1.5
Clean-param: content&user_id&prefix_id&desc&page&download_count&reject&accept&update&_debug&direction&order&tab_id&t&rating
Disallow: /account/
Disallow: /admin.php
Disallow: /forums/*/page-*
Disallow: /birthdays/
Disallow: /cdn-cgi/
Disallow: /conversations/
Disallow: /featured/
Disallow: /goto/
Disallow: /help/
Disallow: /lfs/
Disallow: /login/
Disallow: /lost-password/
Disallow: /members/
Disallow: /misc/
Disallow: /misc/cookies
Disallow: /misc/style-variation
Disallow: /resources/authors/*/
Disallow: /resources/*/history
Disallow: /resources/*/reviews
Disallow: /resources/*/updates
Disallow: /resources/*/update/*/reactions
Disallow: /resources/categories/*/featured
Disallow: /resources/*?prefix_id=
Disallow: /online/
Disallow: /posts/*/reactions
Disallow: /register/
Disallow: /search/
Disallow: /tags/
Disallow: /threads/*/page-*
Disallow: /threads/*/reply
Disallow: /threads/*/who-replied/
Disallow: /whats-new/

User-agent: Googlebot-News
Allow: /forums/-/index.rss

User-agent: YandexNews
Allow: /forums/-/index.rss

User-agent: adbeat_bot
User-agent: adsbot-google
User-agent: AhrefsBot
User-agent: AhrefsSiteAudit
User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot-Extended
User-agent: BLEXBot
User-agent: BuzzSumot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: Cliqzbot
User-agent: cohere-ai
User-agent: DataForSeoBot
User-agent: DeepCrawl
User-agent: Diffbot
User-agent: dotbot
User-agent: DotBot
User-agent: FacebookBot
User-agent: FlipboardProxy
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ia_archiver
User-agent: MegaIndex
User-agent: Mediapartners-Google
User-agent: Meta-ExternalAgent
User-agent: MJ12bot
User-agent: OAI-Embedder
User-agent: PetalBot
User-agent: PocketParser
User-agent: rogerbot
User-agent: Screaming Frog SEO Spider
User-agent: SemrushBot
User-agent: seobots
User-agent: SEOkicks
User-agent: SiteBulb
User-agent: spbot
Disallow: /

User-agent: Applebot
Crawl-delay: 1

User-agent: Ask
Crawl-delay: 2

User-agent: Baiduspider
Crawl-delay: 3

User-agent: bingbot
Crawl-delay: 1.5

User-agent: DuckDuckBot
Crawl-delay: 1

User-agent: FindSounds
Crawl-delay: 2

User-agent: Googlebot
Crawl-delay: 0.5

User-agent: Mail.Ru
Crawl-delay: 2

User-agent: PerplexityBot
Crawl-delay: 2

User-agent: Phind
Crawl-delay: 2

User-agent: StartPage
Crawl-delay: 2

User-agent: TinEye
Crawl-delay: 2

User-agent: trendictionbot
Disallow: /

User-agent: Waldo
Crawl-delay: 2

User-agent: Wolfram
Crawl-delay: 3

User-agent: YaCy
Crawl-delay: 5

User-agent: Yeti
Crawl-delay: 2

User-agent: YouBot
Crawl-delay: 2
Упорядочен список ботов, переписаны запреты, удалено лишнего с общего блока и продублированы некоторые запреты в блок яндекса, потому что было подтверждено, что яндекс игнорит многое с общего блока.

Узнать больше об этом обновлении...
 
Последнее редактирование:
Всем доброго утра.
Вот что пишет Яша по поводу ключа:

73982319348.png
 
Всем доброго утра.
Вот что пишет Яша по поводу ключа:

Посмотреть вложение 161530
К XF 2.3 это не относится. Он вшит в ядро. Это для, тех у кого нет адаптации. Можно конечно ключ вытащить и поставить по рекомендации, но разницы не будет. Вы можете лично в этом убедиться. Вытащите свой ключ, и без вставки в корень текстовика с ним, проверьте сразу работу без него и после с ним. Разницы не будет. 😁
Однако, XF рекомендует не светить ключом на него, потому решение вшить его в ядро было и в целях безопасности. Кстати, у кого версия 2.2 и ниже, то им для работы потребуется вставить свой ключ в корень домена. А уж как генерировать ключ, написано на офе - . Однако, как по мне на версиях ниже он тупо не нужен.
 
Последнее редактирование:
У последнего обновления шаблона, убрал Disallow: /*#post-
Судя по индексации, слишком общий учёт, что блочил почти всё, перестарался. Если у вас есть, удалите. Ресурсы точно заблочит. 😅

Кстати, на пользу всем, используйте Индексация - Анализ robots.txt. У гугла вроде тоже есть нечто подобное...
1774025027313.png
к32к32к13.png
Кто может не знает, инструмент служит для анализа, правильно ли вы заблокировали нужный вам путь или обработчик. Он так же запоминает все ваши прошлые исправления основного robots.txt и можно переключится сразу на прошлую версию и проверить, где как работало и протестировать на месте все правки, он все правки держит тут, на изменения основного не влияет. Хороший полигон для тестов.
 
Последнее редактирование:
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу