Файл robots.txt

А так, это какие-то внутренние ограничения на уровне прокси CF?
Это собственные фильтры, которые CF просто обрабатывает на уровне своего edge-прокси, правила запускаются до того, как запрос попадёт на сервер.
 
Например, я сейчас решил поиграться со своими настройками индексации и проверяю такой шаблон подачи, интересно, что выдаст. В этот раз уделил особое внимание к вредным ботам и оптимизации обработки и удалением лишних дублей там, где это не нужно.😁
Код:
User-agent: *
Disallow: /admin.php
Disallow: /account/
Disallow: /attachments/
Disallow: /search/
Disallow: /lfs/
Disallow: /goto/
Disallow: /misc/
Disallow: /birthdays/
Disallow: /tags/
Disallow: /threads/*/reply
Disallow: /*/about
Disallow: /*/unread
Disallow: /*/latest
Disallow: /threads/*/who-replied/
Disallow: /conversations/
Disallow: /lost-password/
Disallow: /online/
Disallow: /misc/style?*
Disallow: /cdn-cgi/
Disallow: /*/page-*
Disallow: /*?
Sitemap: https://ДОМЕН/sitemap.xml

User-agent: Yandex
Clean-param: content&user_id&prefix_id&desc&page&download_count&direction&reject&accept&update&_debug&direction&order&tab_id
Disallow: /whats-new/
Disallow: /members/
Disallow: /resources/categories/*/featured
Disallow: /resources/*/update/*/reactions
Disallow: /resources/*/updates
Disallow: /resources/*/reviews
Disallow: /resources/*/history
Disallow: /resources/authors/*/
Disallow: /help/
Disallow: /login/
Disallow: /register/

User-agent: YandexNews
Allow: /forums/-/index.rss

User-agent: Googlebot-News
Allow: /forums/-/index.rss

User-agent: Mail.Ru
Crawl-delay: 2

User-agent: StackRambler
Crawl-delay: 2

User-agent: Baiduspider
Crawl-delay: 5

User-agent: YaCy
Crawl-delay: 10

User-agent: Phind
Crawl-delay: 3

User-agent: Wolfram
Crawl-delay: 5

User-agent: Waldo
Crawl-delay: 2

User-agent: Ask
Crawl-delay: 2

User-agent: bingbot
Crawl-delay: 2

User-agent: DuckDuckBot
Crawl-delay: 1

User-agent: Slurp
Crawl-delay: 2

User-agent: Yeti
Crawl-delay: 3

User-agent: Applebot
Crawl-delay: 1

User-agent: StartPage
Crawl-delay: 2

User-agent: PerplexityBot
Crawl-delay: 3

User-agent: YouBot
Crawl-delay: 2

User-agent: FindSounds
Crawl-delay: 2

User-agent: TinEye
Crawl-delay: 3

User-agent: Mediapartners-Google
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: trendictionbot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: MegaIndex
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: OAI-Embedder
Disallow: /

User-agent: OAI-SearchCrawler
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: MJ12bot
Crawl-delay: 10
Disallow: /

User-agent: AhrefsBot
Crawl-delay: 5
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: adbeat_bot
Disallow: /

User-agent: seobots
Disallow: /

User-agent: spbot
Disallow: /
Шаблон дефолтный, можете себе поставить, если хотите, лишнее от плагинов убрал и поправил те места, где правил для себя.
Сразу предупреждаю, у меня пока XF 2.2, но думаю хорошо и на 2.3 будет.
Этот вариант ничем не хуже того, что писал ранее тут. Но отличие в том, что он чище, оптимизирован и расширен на блок вредных ботов. Будет ли лучше, не знаю, сам проверяю, но отпишусь, как будут интересные результаты или наоборот. 😏
Прописывать Crawl-delay: лишь пробую, мол указывается задержка некоторая, хз будет ли толк, проверяю. Да и гугл вроде как их особо не учитывает, а вот другие могут.
В общем, уже спустя некоторое время, объём обхода вырос в разы, если верить статистике с 20 ноября по 1 декабря:
1764737646541.png
Новый шаблон работает лучше, ухудшение на тему дублей или ошибок так же не выдавало. По индексации сложно сказать, на выдаче некоторые страницы были на 4-7 страницах, сейчас на 1-3 страницах выводится, что выводилось намного дальше. Так что определенно успех есть. А вот в Google Console особо изменений не увидел, разве что ругался на запреты на чтение пользователей и постов, хотя в запретах общих не стоит, тут непонятки, как он вообще проверяет, но разве что проверенные страницы к публикации стали чуть больше, в этом плане стало лучше.

Так что по своим наблюдениями могу сказать, что новый шаблон работает отлично. По поводу прописывания .htaccess ничего не могу сказать, есть ли в этом сильная необходимость, пока не вижу у себя необходимости. Шаблоном можно пользоваться по robots точно без проблем, разве что дорабатывать по своим плагинам, если кто где выводит страницы.
 
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу