Файл robots.txt

А так, это какие-то внутренние ограничения на уровне прокси CF?
Это собственные фильтры, которые CF просто обрабатывает на уровне своего edge-прокси, правила запускаются до того, как запрос попадёт на сервер.
 
Например, я сейчас решил поиграться со своими настройками индексации и проверяю такой шаблон подачи, интересно, что выдаст. В этот раз уделил особое внимание к вредным ботам и оптимизации обработки и удалением лишних дублей там, где это не нужно.😁
Код:
User-agent: *
Disallow: /admin.php
Disallow: /account/
Disallow: /attachments/
Disallow: /search/
Disallow: /lfs/
Disallow: /goto/
Disallow: /misc/
Disallow: /birthdays/
Disallow: /tags/
Disallow: /threads/*/reply
Disallow: /*/about
Disallow: /*/unread
Disallow: /*/latest
Disallow: /threads/*/who-replied/
Disallow: /conversations/
Disallow: /lost-password/
Disallow: /online/
Disallow: /misc/style?*
Disallow: /cdn-cgi/
Disallow: /*/page-*
Disallow: /*?
Sitemap: https://ДОМЕН/sitemap.xml

User-agent: Yandex
Clean-param: content&user_id&prefix_id&desc&page&download_count&direction&reject&accept&update&_debug&direction&order&tab_id
Disallow: /whats-new/
Disallow: /members/
Disallow: /resources/categories/*/featured
Disallow: /resources/*/update/*/reactions
Disallow: /resources/*/updates
Disallow: /resources/*/reviews
Disallow: /resources/*/history
Disallow: /resources/authors/*/
Disallow: /help/
Disallow: /login/
Disallow: /register/

User-agent: YandexNews
Allow: /forums/-/index.rss

User-agent: Googlebot-News
Allow: /forums/-/index.rss

User-agent: Mail.Ru
Crawl-delay: 2

User-agent: StackRambler
Crawl-delay: 2

User-agent: Baiduspider
Crawl-delay: 5

User-agent: YaCy
Crawl-delay: 10

User-agent: Phind
Crawl-delay: 3

User-agent: Wolfram
Crawl-delay: 5

User-agent: Waldo
Crawl-delay: 2

User-agent: Ask
Crawl-delay: 2

User-agent: bingbot
Crawl-delay: 2

User-agent: DuckDuckBot
Crawl-delay: 1

User-agent: Slurp
Crawl-delay: 2

User-agent: Yeti
Crawl-delay: 3

User-agent: Applebot
Crawl-delay: 1

User-agent: StartPage
Crawl-delay: 2

User-agent: PerplexityBot
Crawl-delay: 3

User-agent: YouBot
Crawl-delay: 2

User-agent: FindSounds
Crawl-delay: 2

User-agent: TinEye
Crawl-delay: 3

User-agent: Mediapartners-Google
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: trendictionbot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: MegaIndex
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: OAI-Embedder
Disallow: /

User-agent: OAI-SearchCrawler
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: MJ12bot
Crawl-delay: 10
Disallow: /

User-agent: AhrefsBot
Crawl-delay: 5
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: adbeat_bot
Disallow: /

User-agent: seobots
Disallow: /

User-agent: spbot
Disallow: /
Шаблон дефолтный, можете себе поставить, если хотите, лишнее от плагинов убрал и поправил те места, где правил для себя.
Сразу предупреждаю, у меня пока XF 2.2, но думаю хорошо и на 2.3 будет.
Этот вариант ничем не хуже того, что писал ранее тут. Но отличие в том, что он чище, оптимизирован и расширен на блок вредных ботов. Будет ли лучше, не знаю, сам проверяю, но отпишусь, как будут интересные результаты или наоборот. 😏
Прописывать Crawl-delay: лишь пробую, мол указывается задержка некоторая, хз будет ли толк, проверяю. Да и гугл вроде как их особо не учитывает, а вот другие могут.
В общем, уже спустя некоторое время, объём обхода вырос в разы, если верить статистике с 20 ноября по 1 декабря:
1764737646541.png
Новый шаблон работает лучше, ухудшение на тему дублей или ошибок так же не выдавало. По индексации сложно сказать, на выдаче некоторые страницы были на 4-7 страницах, сейчас на 1-3 страницах выводится, что выводилось намного дальше. Так что определенно успех есть. А вот в Google Console особо изменений не увидел, разве что ругался на запреты на чтение пользователей и постов, хотя в запретах общих не стоит, тут непонятки, как он вообще проверяет, но разве что проверенные страницы к публикации стали чуть больше, в этом плане стало лучше.

Так что по своим наблюдениями могу сказать, что новый шаблон работает отлично. По поводу прописывания .htaccess ничего не могу сказать, есть ли в этом сильная необходимость, пока не вижу у себя необходимости. Шаблоном можно пользоваться по robots точно без проблем, разве что дорабатывать по своим плагинам, если кто где выводит страницы.
 
Мне вот интересно, боты вообще стали игнорить общие правила? Стоило с яндекса убрать учёт тегов и добавить в общую, они начали в яндексе индексироваться... 🙃
Видимо яндекс на столько исключительные, то работают тока "по своим" правилам. Вернул теги на место, посмотрим вылезет ли ещё что...
1765170563643.png
1765171375047.png
Ещё и тут вылезло из-за них:
1765170890490.png
 
Последнее редактирование:
  • Мне нравится
Реакции: akok
Занятные данные получаю.
Стоило вернуть теги в яндекс разметку и сразу начал чистить. Так что, могу смело заявить, если что вы прописываете под User-agent: Yandex, то яндекс обязательно учтёт. На общие запреты вне этой пометки ему будет плевать. Что тут сказать, яндекс подсчитали себя особенными. 😆
Снимок экрана 2025-12-16 214611.png
Снимок экрана 2025-12-16 214516.png
Снимок экрана 2025-12-16 214535.png
У меня вопрос, а как вообще можно у себя обозначить те или иные страница, как атрибут rel="canonical"? Я вот понять не могу. Может кто наглядный пример показать, как на XF у себя подобное реализовать?

А вот что стало по обходам, начиная от 20 ноября по 16 декабря.
Снимок экрана 2025-12-16 214702.png
Всё же изменения дали свои плоды на доп.обходы и даже наконец префиксы и страницы начал учитывать, если выше посмотрите под спойлером (хотя странно, по префиксам нет, они в яндекс ветке прописаны, а вот страницы тока в общей ветке... загадка 0_о). Всё же мой шаблон работает как надо. 😁 Эксперимент прошёл успешно, заодно узнали интересный нюанс о яндексе.
Что касается гугла, то разницы почти не увидел, что до, что после т.к. запретов то почти и не было в общей ветке, так что и не удивительно.
🙃
 
Последнее редактирование:
Наблюдаю такую проблему в яндексе поиске

/resources/pochtovyye-rassylki-dlya...​

site.com›resources/pochtovyye-rassylki-dlya
-…
Владелец сайта предпочёл скрыть описание страницы.

Что может быть ?

robots.txt

Код:
User-agent: *
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /account-confirmation/
Disallow: /donate/*/campaign/comments
Disallow: /posts/
Disallow: /search/
Disallow: /members/
Disallow: /direct-messages/
Disallow: /lfs/
Disallow: /register/
Disallow: /login/
Disallow: /lost-password/
Disallow: /admin.php
Disallow: /resources/*/download
Disallow: */chat/*
Disallow: /misc/cookies?*
Disallow: /misc/style-variation?*
Allow: /
Host: https://site.com
Sitemap: https://site.com/sitemap.xml

User-agent: Yandex
Clean-param: tab_id
Clean-param: page
Clean-param: order
Clean-param: direction
Clean-param: _debug
Clean-param: update
Clean-param: accept
Clean-param: reject
Clean-param: direction
Clean-param: prefix_id
Clean-param: content&user_id
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /account-confirmation/
Disallow: /donate/*/campaign/comments
Disallow: /posts/
Disallow: /search/
Disallow: /members/
Disallow: /direct-messages/
Disallow: /lfs/
Disallow: /register/
Disallow: /login/
Disallow: /lost-password/
Disallow: /admin.php
Disallow: /resources/*/download
Disallow: */chat/*
Disallow: /misc/cookies?*
Disallow: /misc/style-variation?*
Disallow: /resources/categories/*/featured
Disallow: /resources/*/update/*/reactions
Disallow: /resources/*/updates
Disallow: /resources/*/reviews
Disallow: /resources/*/history
Disallow: /resources/authors/*/
Allow: /

User-agent: YandexNews
Allow: /forums/-/index.rss

User-agent: Googlebot
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /account-confirmation/
Disallow: /donate/*/campaign/comments
Disallow: /posts/
Disallow: /search/
Disallow: /members/
Disallow: /direct-messages/
Disallow: /lfs/
Disallow: /register/
Disallow: /login/
Disallow: /lost-password/
Disallow: /admin.php
Disallow: /resources/*/download
Disallow: */chat/*
Disallow: /misc/cookies?*
Disallow: /misc/style-variation?*
Allow: /

Googlebot-News
Allow: /forums/-/index.rss

User-agent: Mediapartners-Google
Disallow: /
 
Adguest,

Проверь исходный код страницы /resources/pochtovyye-rassylki-dlya...

<meta name="robots" content="noindex">
<meta name="robots" content="nosnippet">
<meta name="yandex" content="nosnippet">

или HTTP-заголовки

X-Robots-Tag: nosnippet
X-Robots-Tag: noindex
 
Adguest,

Проверь исходный код страницы /resources/pochtovyye-rassylki-dlya...

<meta name="robots" content="noindex">
<meta name="robots" content="nosnippet">
<meta name="yandex" content="nosnippet">

или HTTP-заголовки

X-Robots-Tag: nosnippet
X-Robots-Tag: noindex
Ссылка кстати ведет на страницу списка обновления ресурса

А это похоже параметр Disallow: /resources/*/updates
 
Я грешу на Disallow: /resources/*/updates но не уверен
 
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу