Файл robots.txt

Zero-cold · 24 Ноя 2025

Sadorimatsu написал(а):
А так, это какие-то внутренние ограничения на уровне прокси CF?

Это собственные фильтры, которые CF просто обрабатывает на уровне своего edge-прокси, правила запускаются до того, как запрос попадёт на сервер.

Sadorimatsu · 3 Дек 2025

Sadorimatsu написал(а):
Например, я сейчас решил поиграться со своими настройками индексации и проверяю такой шаблон подачи, интересно, что выдаст. В этот раз уделил особое внимание к вредным ботам и оптимизации обработки и удалением лишних дублей там, где это не нужно.

Код:

User-agent: * Disallow: /admin.php Disallow: /account/ Disallow: /attachments/ Disallow: /search/ Disallow: /lfs/ Disallow: /goto/ Disallow: /misc/ Disallow: /birthdays/ Disallow: /tags/ Disallow: /threads/*/reply Disallow: /*/about Disallow: /*/unread Disallow: /*/latest Disallow: /threads/*/who-replied/ Disallow: /conversations/ Disallow: /lost-password/ Disallow: /online/ Disallow: /misc/style?* Disallow: /cdn-cgi/ Disallow: /*/page-* Disallow: /*? Sitemap: https://ДОМЕН/sitemap.xml User-agent: Yandex Clean-param: content&user_id&prefix_id&desc&page&download_count&direction&reject&accept&update&_debug&direction&order&tab_id Disallow: /whats-new/ Disallow: /members/ Disallow: /resources/categories/*/featured Disallow: /resources/*/update/*/reactions Disallow: /resources/*/updates Disallow: /resources/*/reviews Disallow: /resources/*/history Disallow: /resources/authors/*/ Disallow: /help/ Disallow: /login/ Disallow: /register/ User-agent: YandexNews Allow: /forums/-/index.rss User-agent: Googlebot-News Allow: /forums/-/index.rss User-agent: Mail.Ru Crawl-delay: 2 User-agent: StackRambler Crawl-delay: 2 User-agent: Baiduspider Crawl-delay: 5 User-agent: YaCy Crawl-delay: 10 User-agent: Phind Crawl-delay: 3 User-agent: Wolfram Crawl-delay: 5 User-agent: Waldo Crawl-delay: 2 User-agent: Ask Crawl-delay: 2 User-agent: bingbot Crawl-delay: 2 User-agent: DuckDuckBot Crawl-delay: 1 User-agent: Slurp Crawl-delay: 2 User-agent: Yeti Crawl-delay: 3 User-agent: Applebot Crawl-delay: 1 User-agent: StartPage Crawl-delay: 2 User-agent: PerplexityBot Crawl-delay: 3 User-agent: YouBot Crawl-delay: 2 User-agent: FindSounds Crawl-delay: 2 User-agent: TinEye Crawl-delay: 3 User-agent: Mediapartners-Google Disallow: / User-agent: GPTBot Disallow: / User-agent: trendictionbot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: CCBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: SemrushBot Disallow: / User-agent: dotbot Disallow: / User-agent: MegaIndex Disallow: / User-agent: Claude-Web Disallow: / User-agent: ClaudeBot Disallow: / User-agent: OAI-Embedder Disallow: / User-agent: OAI-SearchCrawler Disallow: / User-agent: cohere-ai Disallow: / User-agent: MJ12bot Crawl-delay: 10 Disallow: / User-agent: AhrefsBot Crawl-delay: 5 Disallow: / User-agent: Bytespider Disallow: / User-agent: adbeat_bot Disallow: / User-agent: seobots Disallow: / User-agent: spbot Disallow: /

Шаблон дефолтный, можете себе поставить, если хотите, лишнее от плагинов убрал и поправил те места, где правил для себя.
Сразу предупреждаю, у меня пока XF 2.2, но думаю хорошо и на 2.3 будет.
Этот вариант ничем не хуже того, что писал ранее тут. Но отличие в том, что он чище, оптимизирован и расширен на блок вредных ботов. Будет ли лучше, не знаю, сам проверяю, но отпишусь, как будут интересные результаты или наоборот.
Прописывать Crawl-delay: лишь пробую, мол указывается задержка некоторая, хз будет ли толк, проверяю. Да и гугл вроде как их особо не учитывает, а вот другие могут.

В общем, уже спустя некоторое время, объём обхода вырос в разы, если верить статистике с 20 ноября по 1 декабря:

Новый шаблон работает лучше, ухудшение на тему дублей или ошибок так же не выдавало. По индексации сложно сказать, на выдаче некоторые страницы были на 4-7 страницах, сейчас на 1-3 страницах выводится, что выводилось намного дальше. Так что определенно успех есть. А вот в Google Console особо изменений не увидел, разве что ругался на запреты на чтение пользователей и постов, хотя в запретах общих не стоит, тут непонятки, как он вообще проверяет, но разве что проверенные страницы к публикации стали чуть больше, в этом плане стало лучше.

Так что по своим наблюдениями могу сказать, что новый шаблон работает отлично. По поводу прописывания .htaccess ничего не могу сказать, есть ли в этом сильная необходимость, пока не вижу у себя необходимости. Шаблоном можно пользоваться по robots точно без проблем, разве что дорабатывать по своим плагинам, если кто где выводит страницы.

Sadorimatsu · 8 Дек 2025

Мне вот интересно, боты вообще стали игнорить общие правила? Стоило с яндекса убрать учёт тегов и добавить в общую, они начали в яндексе индексироваться...

Видимо яндекс на столько исключительные, то работают тока "по своим" правилам. Вернул теги на место, посмотрим вылезет ли ещё что...

Ещё и тут вылезло из-за них:

Its · 8 Дек 2025

Sadorimatsu написал(а):
Мне вот интересно, боты вообще стали игнорить общие правила?

Я некоторых ботов вообще в антиботе заблокировал
Ибо им все правила robots.txt вообще по барабану

Sadorimatsu · 16 Дек 2025

Занятные данные получаю.
Стоило вернуть теги в яндекс разметку и сразу начал чистить. Так что, могу смело заявить, если что вы прописываете под User-agent: Yandex, то яндекс обязательно учтёт. На общие запреты вне этой пометки ему будет плевать. Что тут сказать, яндекс подсчитали себя особенными.

У меня вопрос, а как вообще можно у себя обозначить те или иные страница, как атрибут rel="canonical"? Я вот понять не могу. Может кто наглядный пример показать, как на XF у себя подобное реализовать?

А вот что стало по обходам, начиная от 20 ноября по 16 декабря.

Всё же изменения дали свои плоды на доп.обходы и даже наконец префиксы и страницы начал учитывать, если выше посмотрите под спойлером (хотя странно, по префиксам нет, они в яндекс ветке прописаны, а вот страницы тока в общей ветке... загадка 0_о). Всё же мой шаблон работает как надо.

Эксперимент прошёл успешно, заодно узнали интересный нюанс о яндексе.
Что касается гугла, то разницы почти не увидел, что до, что после т.к. запретов то почти и не было в общей ветке, так что и не удивительно.

Adguest · 17 Дек 2025

Наблюдаю такую проблему в яндексе поиске

/resources/pochtovyye-rassylki-dlya...

site.com›resources/pochtovyye-rassylki-dlya
-…
Владелец сайта предпочёл скрыть описание страницы.

Что может быть ?

robots.txt

Код:

User-agent: *
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /account-confirmation/
Disallow: /donate/*/campaign/comments
Disallow: /posts/
Disallow: /search/
Disallow: /members/
Disallow: /direct-messages/
Disallow: /lfs/
Disallow: /register/
Disallow: /login/
Disallow: /lost-password/
Disallow: /admin.php
Disallow: /resources/*/download
Disallow: */chat/*
Disallow: /misc/cookies?*
Disallow: /misc/style-variation?*
Allow: /
Host: https://site.com
Sitemap: https://site.com/sitemap.xml

User-agent: Yandex
Clean-param: tab_id
Clean-param: page
Clean-param: order
Clean-param: direction
Clean-param: _debug
Clean-param: update
Clean-param: accept
Clean-param: reject
Clean-param: direction
Clean-param: prefix_id
Clean-param: content&user_id
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /account-confirmation/
Disallow: /donate/*/campaign/comments
Disallow: /posts/
Disallow: /search/
Disallow: /members/
Disallow: /direct-messages/
Disallow: /lfs/
Disallow: /register/
Disallow: /login/
Disallow: /lost-password/
Disallow: /admin.php
Disallow: /resources/*/download
Disallow: */chat/*
Disallow: /misc/cookies?*
Disallow: /misc/style-variation?*
Disallow: /resources/categories/*/featured
Disallow: /resources/*/update/*/reactions
Disallow: /resources/*/updates
Disallow: /resources/*/reviews
Disallow: /resources/*/history
Disallow: /resources/authors/*/
Allow: /

User-agent: YandexNews
Allow: /forums/-/index.rss

User-agent: Googlebot
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /account-confirmation/
Disallow: /donate/*/campaign/comments
Disallow: /posts/
Disallow: /search/
Disallow: /members/
Disallow: /direct-messages/
Disallow: /lfs/
Disallow: /register/
Disallow: /login/
Disallow: /lost-password/
Disallow: /admin.php
Disallow: /resources/*/download
Disallow: */chat/*
Disallow: /misc/cookies?*
Disallow: /misc/style-variation?*
Allow: /

Googlebot-News
Allow: /forums/-/index.rss

User-agent: Mediapartners-Google
Disallow: /

Zero-cold · 17 Дек 2025

Adguest,

Проверь исходный код страницы /resources/pochtovyye-rassylki-dlya...

<meta name="robots" content="noindex">
<meta name="robots" content="nosnippet">
<meta name="yandex" content="nosnippet">

или HTTP-заголовки

X-Robots-Tag: nosnippet
X-Robots-Tag: noindex

Adguest · 17 Дек 2025

Zero-cold написал(а):
Adguest,

Проверь исходный код страницы /resources/pochtovyye-rassylki-dlya...

<meta name="robots" content="noindex">
<meta name="robots" content="nosnippet">
<meta name="yandex" content="nosnippet">

или HTTP-заголовки

X-Robots-Tag: nosnippet
X-Robots-Tag: noindex

Ссылка кстати ведет на страницу списка обновления ресурса

А это похоже параметр Disallow: /resources/*/updates

Adguest · 18 Дек 2025

Я грешу на Disallow: /resources/*/updates но не уверен

Sadorimatsu · 1 Мар 2026

Продолжаем ветку улучшения robots.

Учитывая, что на 2.2 моя версия прижилась очень отлично, никаких нареканий нет, если кто сидит ещё на этой версии, то смело можете ставить - НАЙТИ ТУТ. Смело можно и на 2.3 использовать, вреда никакого, разве что добавить следует пару пунктов на блок.

А теперь об интересном, я наконец обновился до 2.3.10 и конечно, после сразу заметил изменения и необходимость прописать более глубже настройки.
Теперь начинаем новый эксперимент с 1 марта:

(Тут готовый шаблон для дефолта, можете спокойно использовать, если считаете нужным)

Код:

User-agent: *
Disallow: /whats-new/
Disallow: /admin.php
Disallow: /account/
Disallow: /attachments/
Disallow: /search/
Disallow: /featured/
Disallow: /lfs/
Disallow: /goto/
Disallow: /members/
Disallow: /misc/
Disallow: /misc/cookies
Disallow: /misc/style-variation
Disallow: /misc/style?*
Disallow: /birthdays/
Disallow: /tags/
Disallow: /threads/*/reply
Disallow: /threads/*/who-replied/
Disallow: /threads/*/page-*
Disallow: /resources/authors/
Disallow: /resources/*/history
Disallow: /resources/*/reviews
Disallow: /resources/*/updates
Disallow: /resources/*/update/*/reactions
Disallow: /resources/categories/*/featured
Disallow: /resources/*?prefix_id=
Disallow: /forums/*/page-*
Disallow: /conversations/
Disallow: /lost-password/
Disallow: /online/
Disallow: /cdn-cgi/
Disallow: /*?content_type=
Disallow: /*/about
Disallow: /*/unread
Disallow: /*/latest
Disallow: /*/reactions
Disallow: /*/*/reactions
Disallow: /*#post-
Disallow: /*/page-*
Disallow: /*?page=
Disallow: /*?order=
Disallow: /*?direction=
Disallow: /*?content=
Disallow: /*?user_id=
Disallow: /*?prefix_id=
Disallow: /*?prefix_id*
Disallow: /*?desc=
Disallow: /*?download_count=
Disallow: /*?rating=
Disallow: /*?reject=
Disallow: /*?accept=
Disallow: /*?update=
Disallow: /*?t=
Allow: /css/
Allow: /js/
Allow: /styles/

Sitemap: https://ВАШ_ДОМЕН/sitemap.xml

User-agent: Yandex
Clean-param: content&user_id&prefix_id&desc&page&download_count&reject&accept&update&_debug&direction&order&tab_id&t&rating
Crawl-delay: 1.5
Disallow: /whats-new/
Disallow: /members/
Disallow: /forums/*/page-*
Disallow: /threads/*/page-*
Disallow: /resources/authors/
Disallow: /resources/*/history
Disallow: /resources/*/reviews
Disallow: /resources/*/updates
Disallow: /resources/*/update/*/reactions
Disallow: /resources/categories/*/featured
Disallow: /resources/*?prefix_id=
Disallow: /help/
Disallow: /login/
Disallow: /register/
Disallow: /tags/
Disallow: /featured/
Disallow: /misc/cookies
Disallow: /misc/style-variation

User-agent: Googlebot-News
Allow: /forums/-/index.rss

User-agent: YandexNews
Allow: /forums/-/index.rss

User-agent: adbeat_bot
Disallow: /

User-agent: adsbot-google
Disallow: /

User-agent: AhrefsBot
Crawl-delay: 3
Disallow: /

User-agent: AhrefsSiteAudit
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot
Crawl-delay: 1

User-agent: Applebot-Extended
Disallow: /

User-agent: Ask
Crawl-delay: 2

User-agent: Baiduspider
Crawl-delay: 3

User-agent: bingbot
Crawl-delay: 1.5

User-agent: BLEXBot
Disallow: /

User-agent: BuzzSumot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Cliqzbot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: DataForSeoBot
Disallow: /

User-agent: DeepCrawl
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: DuckDuckBot
Crawl-delay: 1

User-agent: FacebookBot
Disallow: /

User-agent: FindSounds
Crawl-delay: 2

User-agent: FlipboardProxy
Disallow: /

User-agent: Googlebot
Crawl-delay: 0.5

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: Mail.Ru
Crawl-delay: 2

User-agent: Mediapartners-Google
Disallow: /

User-agent: MegaIndex
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: MJ12bot
Crawl-delay: 10
Disallow: /

User-agent: OAI-Embedder
Disallow: /

User-agent: PerplexityBot
Crawl-delay: 2

User-agent: PetalBot
Disallow: /

User-agent: Phind
Crawl-delay: 2

User-agent: PocketParser
Disallow: /

User-agent: rogerbot
Disallow: /

User-agent: Screaming Frog SEO Spider
Disallow: /

User-agent: SemrushBot
Crawl-delay: 3
Disallow: /

User-agent: seobots
Disallow: /

User-agent: SEOkicks
Disallow: /

User-agent: SiteBulb
Disallow: /

User-agent: spbot
Disallow: /

User-agent: StartPage
Crawl-delay: 2

User-agent: TinEye
Crawl-delay: 2

User-agent: trendictionbot
Disallow: /

User-agent: Waldo
Crawl-delay: 2

User-agent: Wolfram
Crawl-delay: 3

User-agent: YaCy
Crawl-delay: 5

User-agent: Yeti
Crawl-delay: 2

User-agent: YouBot
Crawl-delay: 2

User-agent: *
Disallow: /forum/whats-new/
Disallow: /forum/admin.php
Disallow: /forum/account/
Disallow: /forum/attachments/
Disallow: /forum/search/
Disallow: /forum/featured/
Disallow: /forum/lfs/
Disallow: /forum/goto/
Disallow: /forum/members/
Disallow: /forum/misc/
Disallow: /forum/misc/cookies
Disallow: /forum/misc/style-variation
Disallow: /forum/misc/style?*
Disallow: /forum/birthdays/
Disallow: /forum/tags/
Disallow: /forum/threads/*/reply
Disallow: /forum/threads/*/who-replied/
Disallow: /forum/threads/*/page-*
Disallow: /forum/resources/authors/
Disallow: /forum/resources/*/history
Disallow: /forum/resources/*/reviews
Disallow: /forum/resources/*/updates
Disallow: /forum/resources/*/update/*/reactions
Disallow: /forum/resources/categories/*/featured
Disallow: /forum/resources/*?prefix_id=
Disallow: /forum/forums/*/page-*
Disallow: /forum/conversations/
Disallow: /forum/lost-password/
Disallow: /forum/online/
Disallow: /forum/cdn-cgi/
Disallow: /forum/*?content_type=
Disallow: /forum/*/about
Disallow: /forum/*/unread
Disallow: /forum/*/latest
Disallow: /forum/*/reactions
Disallow: /forum/*/*/reactions
Disallow: /forum/*#post-
Disallow: /forum/*/page-*
Disallow: /forum/*?page=
Disallow: /forum/*?order=
Disallow: /forum/*?direction=
Disallow: /forum/*?content=
Disallow: /forum/*?user_id=
Disallow: /forum/*?prefix_id=
Disallow: /forum/*?prefix_id*
Disallow: /forum/*?desc=
Disallow: /forum/*?download_count=
Disallow: /forum/*?rating=
Disallow: /forum/*?reject=
Disallow: /forum/*?accept=
Disallow: /forum/*?update=
Disallow: /forum/*?t=
Allow: /forum/css/
Allow: /forum/js/
Allow: /forum/styles/

Sitemap: https://ВАШ_ДОМЕН/forum/sitemap.xml

User-agent: Yandex
Clean-param: content&user_id&prefix_id&desc&page&download_count&reject&accept&update&_debug&direction&order&tab_id&t
Crawl-delay: 1.5
Disallow: /forum/whats-new/
Disallow: /forum/members/
Disallow: /forum/forums/*/page-*
Disallow: /forum/threads/*/page-*
Disallow: /forum/resources/authors/
Disallow: /forum/resources/*/history
Disallow: /forum/resources/*/reviews
Disallow: /forum/resources/*/updates
Disallow: /forum/resources/*/update/*/reactions
Disallow: /forum/resources/categories/*/featured
Disallow: /forum/resources/*?prefix_id=
Disallow: /forum/help/
Disallow: /forum/login/
Disallow: /forum/register/
Disallow: /forum/tags/
Disallow: /forum/featured/
Disallow: /forum/misc/cookies
Disallow: /forum/misc/style-variation

User-agent: Googlebot-News
Allow: /forum/forums/-/index.rss

User-agent: YandexNews
Allow: /forum/forums/-/index.rss

User-agent: adbeat_bot
Disallow: /

User-agent: adsbot-google
Allow: /forum/
Disallow: /

User-agent: AhrefsBot
Crawl-delay: 3
Disallow: /

User-agent: AhrefsSiteAudit
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot
Crawl-delay: 1

User-agent: Applebot-Extended
Disallow: /

User-agent: Ask
Crawl-delay: 2

User-agent: Baiduspider
Crawl-delay: 3

User-agent: bingbot
Crawl-delay: 1.5

User-agent: BLEXBot
Disallow: /

User-agent: BuzzSumot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Cliqzbot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: DataForSeoBot
Disallow: /

User-agent: DeepCrawl
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: DuckDuckBot
Crawl-delay: 1

User-agent: FacebookBot
Allow: /forum/
Disallow: /

User-agent: FindSounds
Crawl-delay: 2

User-agent: FlipboardProxy
Allow: /forum/
Disallow: /

User-agent: Googlebot
Crawl-delay: 0.5

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: Mail.Ru
Crawl-delay: 2

User-agent: Mediapartners-Google
Allow: /forum/
Disallow: /

User-agent: MegaIndex
Disallow: /

User-agent: Meta-ExternalAgent
Allow: /forum/
Disallow: /

User-agent: MJ12bot
Crawl-delay: 10
Disallow: /

User-agent: OAI-Embedder
Disallow: /

User-agent: PerplexityBot
Crawl-delay: 2

User-agent: PetalBot
Disallow: /

User-agent: Phind
Crawl-delay: 2

User-agent: PocketParser
Allow: /forum/
Disallow: /

User-agent: rogerbot
Disallow: /

User-agent: Screaming Frog SEO Spider
Disallow: /

User-agent: SemrushBot
Crawl-delay: 3
Disallow: /

User-agent: seobots
Disallow: /

User-agent: SEOkicks
Disallow: /

User-agent: SiteBulb
Disallow: /

User-agent: spbot
Disallow: /

User-agent: StartPage
Crawl-delay: 2

User-agent: TinEye
Crawl-delay: 2

User-agent: trendictionbot
Disallow: /

User-agent: Waldo
Crawl-delay: 2

User-agent: Wolfram
Crawl-delay: 3

User-agent: YaCy
Crawl-delay: 5

User-agent: Yeti
Crawl-delay: 2

User-agent: YouBot
Crawl-delay: 2

Если что, настройки и для XF 2.2 подойдут, даже если у вас нет того, что указано для 2.3, на будущее обновление уже не нужно будет заморачиваться.

/posts/ в моём случае не блокируется весь, а только повторяющие на нём страницы. К тому же включен IndexNow, потому блокировать не рекомендуется на 2.3 при его включении. Не знаю будет ли толк от IndexNow, но посмотрим. Если у вас отключен IndexNow (Или его нет на XF 2.2), то в robots рекомендуется добавить запрет так:

Код:

Disallow: /posts/*/
Disallow: /*post-

Особое внимание стоит отдать /misc/cookies и /misc/style-variation (XF 2.2 вариантов стиля нет). На них самые активные запросы. Блочить обязательно. Если у вас в поиске используются tags, то конечно открываем. Остальное, на свои потребности уже смотрим. И местами featured проходит (На XF 2.2 можно открыть, будет полезен), блокируйте на усмотрение, но учитывая, что на нём нет мета описания, то лучше блочить. Запомните главное правило, если на нужной странице у вас в коде не прописывается meta заголовок и описание, то 100% будете ловить ошибки, по коду страницы проверяйте обязательно. Особенно на это чувстителен яндекс. На гугл можете забить болт, он всё хватает и если вы акцентрируетесь на него, то по нему и смотрите. Но для него и общих правил будет уже за глаза.

И конечно, если вы пользуетесь рекламой Ads гугла, то лучше убрать из правила запрет на Mediapartners-Google и adsbot-google.

Список ботов расширился и стоят полные запреты или временные интервалы, учитывая, что некоторая часть будет игнорировать правило, но в случае агрессивных, блочим на уровне сервера, в остальном некоторую часть отвадит и снизит лишнюю нагрузку на обработку ботов.

Sadorimatsu · 2 Мар 2026

Рекомендуется добавить в основное правило:

Код:

Disallow: /*/reactions - # техническая страница реакций, индексировать не нужно, но будет хватать дубли с ним. У нас уже оно стоит.
Disallow: /*/*/reactions # тоже самое, но глубже по структуре. Необязательно, но и не лишне.
Disallow: /*?prefix_id* # кто работает с префиксами, будет важно добавить тоже, иначе ждите дубли.
Disallow: /*?content_type= # так же требует запретить, если он фигурирует ещё где-то, помимо featured (рекомендуемые).

Если яндекс будет игнорить, то добавить в Clean-param: как content_type. Помимо него, в whats-new есть подобные переменные на обработку и все они выводятся из-за "фильтров", если будет прецендент на это, то вы знаете где их искать и по пути прописать, что убрать.

Sadorimatsu · 5 Мар 2026

Рекомендуется так же добавить в общий и блок яндекса:

Код:

Disallow: /members/ # Убираем индексацию профилей пользователя в общем блоке. На яндекс уже есть. Чтобы не разводить мусор.
Disallow: /forums/*/page-* # Убираем пагинацию страниц с форумов
Disallow: /threads/*/page-* # Убираем пагинацию страниц с тем

По поводу пагинации, то это речь про дубли, которые вы получаете, например с page-1, page-2 и т.д. это правило убирает индексацию этих страниц, вам оно и не нужно, вам важно индексировать основную. Если нужно, можете на общем блоке не указывать на members, но на яндекс обязательно.
Если у вас даже прописан "canonical" на страницу, но не настроено правило индексации на пагинацию, то вы всё равно будете ловить дубли. Пропишите эти правила в общий блок и яндекса.

Я сужу по данным к своему вебмастеру яндекса и пробиваю дыры, что ещё лишнее он пытается индексировать. Следовать ли этим рекомендацией, ваш выбор. Хотите мусорной выдачи на свой домен, то можете ничего не прописывать и выбрать свой путь.

Чтобы ускорить чистку и проверку, то не забываем удалять лишний мусор: (показываю где)

Как понять, что можно удалить?
Нам понадобятся 2 раздела: Индексирование - Заголовки и описания и Страницы в поиске. И любая нейронка для помощи в анализе (Только не Алиса, побойтесь бога

), я пользуюсь DeepSeek (он порой тоже несет ахинею, но в нём важно правильно задавать запрос).
1) Заходим на Заголовки и описания и видим это:

Отсюда нам нужно нажать на XLS во вкладке title и description. В каждой вкладкой, свой XLS т.е. вам нужно 2 файла!
2) Заходим на Страницы в поиске, мотаем список в самый низ и видим это (на моём примере можно увидеть, что members индексируется, что не должно, хотя в блоке яндекс был прописан, но на общем нет, так что в своём случае добавил в основной блок запрет):

И тут жмём XLS. Вкладка изначально на "Последние изменения" у вас так и остается, смотреть другие нам не нужно, мы судим именно по последним обходам. Если надо, сделайте по всем, тоже не лишне.

После этого, загружаем все эти Excel файлы в вашу нейронку и не забудьте выгрузить так же сам robots.txt и напишите, примерно такой запрос "Проанализуруй файлы, выдай URL адреса дублей и прямые обходы. Укажи список для копирования, какие URL нужно удалить и укажи на ошибки в robots.txt". После этого он вам даст список, который вставите на удаление, что писал выше. Это ускорит процесс чистки от мусора.

Нейронкой неплохо и проверять сам robots, может дать подсказки, но верить всему тоже не стоит, надо и самому проверять т.к. он не даст вам точного ответа, а что лучше прописать.

Хочешь хорошего SEO, включай голову. Таков путь.

P.S. Тут как бы не идут уже споры на блокировку гугла, так что на его учёт даже не смотрю. Можно конечно на общий блок вообще всё открыть, гугл с удовольствием всё это схавает, как и другие, но в его консоли анализа вы будете ловить тонны ошибок на те же проблемы, что и в яндексе. Выбор за вами.

azmg · 5 Мар 2026

Это уже не в теме robots писать, а целый ресурс создавать)

Sadorimatsu · 5 Мар 2026

azmg написал(а):
Это уже не в теме robots писать, а целый ресурс создавать)

Если тесты пройдут гладко, то можно специально для XF 2.3 сделать русурс справку. Но в остальном, всё думаю будет норм.

Тема настройки robots.txt думаю больная у каждого и пора бы уже давно поставить жирную точку.
Естественно, не забываем, что мы доводим до приличного уровня дефолтный набор, если у вас плагины, типа NEWS, AMS, XenPortal, галереи, магазины и прочее, то их так же нужно будет учитывать, а это отдельный анализ индивидуально у каждого.

Raniyx · 5 Мар 2026

OFFTOP

Sadorimatsu написал(а):
то можно специально для XF 2.3 сделать ресурс справку

Я думаю для 2.2 тоже было бы неплохо оформить, а не только для 2.3, хотя если это будет актуально на версиях ниже, то будет супер!

Sadorimatsu написал(а):
Нейронкой неплохо и проверять сам robots, может дать подсказки, но верить всему тоже не стоит, надо и самому проверять т.к. он не даст вам точного ответа, а что лучше прописать.

Скорее не совсем в тему будет, но тоже про индексацию. Все больше поисковики (Не яндекс, он и тут болен прости господи) используют ИИ при поиске и стандартная индексация все больше улетает в небытие (что кажется нереальным), поскольку новомодные тренды и в целом любые нейронки, которые выдают ответ в самом поисковике после запроса (тот же гугл) основываются на файле llms.txt. С ним тесты не пробовали проводить? Как пример (не реклама, упаси господь от подобного продукта и услуги, есть у

У Вас недостаточно прав для просмотра ссылок. Вход или Регистрация

). Подобную реализацию у проектов видел некоторых, отзываются позитивно о работоспособности.

Sadorimatsu · 5 Мар 2026

Raniyx написал(а):
OFFTOP

Я думаю для 2.2 тоже было бы неплохо оформить, а не только для 2.3, хотя если это будет актуально на версиях ниже, то будет супер!

На 2.2 так же будет, как никак вариант для 2.2 прописывал ранее, никаких проблем, просто на 2.3 более детальным получился.

Raniyx написал(а):
(тот же гугл) основываются на файле llms.txt. С ним тесты не пробовали проводить? Как пример (не реклама, упаси господь от подобного продукта и услуги, есть у
У Вас недостаточно прав для просмотра ссылок. Вход или Регистрация
). Подобную реализацию у проектов видел некоторых, отзываются позитивно о работоспособности.

Первый раз слышу, можно поподробней? Гугл знаю, всё больше полагаются на ИИ и не так скоро обычная индексация умрёт с ним. Но основна цель тут не только привести в порядок выдачу в поиске, но и снизить лишнюю нагрузку ботов на сервер, конечно ничто не мешает на самом сервере это прописать, но это актуально лишь с более агрессивными. А по поводу выдачи ИИ не знаю, по крайне мере информации не слышал, что появились новые способы индексации на их счёт.

Raniyx · 5 Мар 2026

Sadorimatsu написал(а):
А по поводу выдачи ИИ не знаю, по крайне мере информации не слышал, что появились новые способы индексации на их счёт.

ИИ-пузырь в действии: сейчас огромная аудитория использует нейронки вроде ChatGPT, Gemini или DeepSeek в качестве полноценной замены классическому поиску. Судя по всему, современные модели при сборе данных всё чаще игнорируют директивы robots.txt, предпочитая напрямую продираться сквозь "шум" — рекламные баннеры, скрипты и прочий визуальный мусор.

Чтобы оптимизировать этот процесс и повысить шансы сайта оказаться в списке источников, сейчас активно внедряют llms.txt. Это Markdown-файл в корневом каталоге, который решает ту же задачу, что и его предшественник, но на другом уровне: он предоставляет нейросети готовую, структурированную выжимку самого полезного контента. Модель не тратит ресурсы на парсинг мусора, за счет чего семантическая ценность ресурса в глазах ИИ кратно возрастает, а вероятность корректного цитирования становится выше.

Коллеги уже реализовали аддон, который через периодическую джобу сканирует контент форума и автоматически собирает актуальный llms.txt. Если проводить аналогию, то robots.txt — это суровый охранник на КПП, который просто проверяет пропуска, а llms.txt — это персональный экскурсовод, который за руку ведет модель к самой важной и полезной информации.

upd: дополню, что есть немного более информативные постики на других площадках (не реклама):

У Вас недостаточно прав для просмотра ссылок. Вход или Регистрация

Sadorimatsu · 5 Мар 2026

Raniyx написал(а):
Коллеги уже реализовали аддон, который через периодическую джобу сканирует контент форума и автоматически собирает актуальный llms.txt. Если проводить аналогию, то robots.txt — это суровый охранник на КПП, который просто проверяет пропуска, а llms.txt — это персональный экскурсовод, который за руку ведет модель к самой важной и полезной информации.

Как почитал, ни одна из крупных компаний этот вариант обработки не использует, по крайне мере официально не было заявлений. В остальном, как понимаю, он служит больше дополнением и проводником того, какой контент наиболее важно показывать, но при этом он вынуждает раскрывать полную структуру этого контента по ссылкам, вплоть до прописания мета заголовка и описания вручную. Иначе говоря, этот файл помогает ИИ струкуризовать важные для нас URL для выдачи в поиске, но как это будет эффективно, сложно сказать, мало информации.

Только, мне не совсем понятно, зачем нужен плагин для этого? Разве что, он будет формировать готовую форму для создания и выдачи всего или определенного контента на XF, я вижу пользу в плагине тока в этом, чем делать вручную. Изучу надосуге этот вопрос более детально.

Raniyx · 5 Мар 2026

Sadorimatsu написал(а):
Разве что, он будет формировать готовую форму для создания и выдачи всего или определенного контента на XF, я вижу пользу в плагине тока в этом, чем делать вручную

Сократить ручной труд, но там тоже потратили что-то типа 450-600$ на разработку, мне детали не раскрывали, сказали что просто позволяет быстрее все собирать в файл, чем руками тратить по несколько часов. Это все вот новомодная мишура, было интересно просто, в курсе ли вы про это, да и подкинуть как идейку, на подумать.

Sadorimatsu · 5 Мар 2026

Raniyx написал(а):
Сократить ручной труд, но там тоже потратили что-то типа 450-600$ на разработку, мне детали не раскрывали, сказали что просто позволяет быстрее все собирать в файл, чем руками тратить по несколько часов. Это все вот новомодная мишура, было интересно просто, в курсе ли вы про это, да и подкинуть как идейку, на подумать.

Есть хоть уже рабочий шаблон подачи в таком файле? Потому что вызывает лишь вопросы актуальность этой задумки. Одно дело помочь продвигать в поиске, другое платные рекламные гиганты этого просто не дадут, яндекс точно.

Файл robots.txt

Zero-cold

Sadorimatsu

Sadorimatsu

Its

Sadorimatsu

Adguest

/resources/pochtovyye-rassylki-dlya...

Zero-cold

Adguest

Adguest

Sadorimatsu

Вложения

Sadorimatsu

Sadorimatsu

azmg

Sadorimatsu

Raniyx

Sadorimatsu

Raniyx

Sadorimatsu

Raniyx

Sadorimatsu

Мы ценим вашу конфиденциальность

Файл robots.txt

/resources/pochtovyye-rassylki-dlya...​

Вложения

Мы ценим вашу конфиденциальность

/resources/pochtovyye-rassylki-dlya...