Файл robots.txt

А так, это какие-то внутренние ограничения на уровне прокси CF?
Это собственные фильтры, которые CF просто обрабатывает на уровне своего edge-прокси, правила запускаются до того, как запрос попадёт на сервер.
 
Например, я сейчас решил поиграться со своими настройками индексации и проверяю такой шаблон подачи, интересно, что выдаст. В этот раз уделил особое внимание к вредным ботам и оптимизации обработки и удалением лишних дублей там, где это не нужно.😁
Код:
User-agent: *
Disallow: /admin.php
Disallow: /account/
Disallow: /attachments/
Disallow: /search/
Disallow: /lfs/
Disallow: /goto/
Disallow: /misc/
Disallow: /birthdays/
Disallow: /tags/
Disallow: /threads/*/reply
Disallow: /*/about
Disallow: /*/unread
Disallow: /*/latest
Disallow: /threads/*/who-replied/
Disallow: /conversations/
Disallow: /lost-password/
Disallow: /online/
Disallow: /misc/style?*
Disallow: /cdn-cgi/
Disallow: /*/page-*
Disallow: /*?
Sitemap: https://ДОМЕН/sitemap.xml

User-agent: Yandex
Clean-param: content&user_id&prefix_id&desc&page&download_count&direction&reject&accept&update&_debug&direction&order&tab_id
Disallow: /whats-new/
Disallow: /members/
Disallow: /resources/categories/*/featured
Disallow: /resources/*/update/*/reactions
Disallow: /resources/*/updates
Disallow: /resources/*/reviews
Disallow: /resources/*/history
Disallow: /resources/authors/*/
Disallow: /help/
Disallow: /login/
Disallow: /register/

User-agent: YandexNews
Allow: /forums/-/index.rss

User-agent: Googlebot-News
Allow: /forums/-/index.rss

User-agent: Mail.Ru
Crawl-delay: 2

User-agent: StackRambler
Crawl-delay: 2

User-agent: Baiduspider
Crawl-delay: 5

User-agent: YaCy
Crawl-delay: 10

User-agent: Phind
Crawl-delay: 3

User-agent: Wolfram
Crawl-delay: 5

User-agent: Waldo
Crawl-delay: 2

User-agent: Ask
Crawl-delay: 2

User-agent: bingbot
Crawl-delay: 2

User-agent: DuckDuckBot
Crawl-delay: 1

User-agent: Slurp
Crawl-delay: 2

User-agent: Yeti
Crawl-delay: 3

User-agent: Applebot
Crawl-delay: 1

User-agent: StartPage
Crawl-delay: 2

User-agent: PerplexityBot
Crawl-delay: 3

User-agent: YouBot
Crawl-delay: 2

User-agent: FindSounds
Crawl-delay: 2

User-agent: TinEye
Crawl-delay: 3

User-agent: Mediapartners-Google
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: trendictionbot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: MegaIndex
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: OAI-Embedder
Disallow: /

User-agent: OAI-SearchCrawler
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: MJ12bot
Crawl-delay: 10
Disallow: /

User-agent: AhrefsBot
Crawl-delay: 5
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: adbeat_bot
Disallow: /

User-agent: seobots
Disallow: /

User-agent: spbot
Disallow: /
Шаблон дефолтный, можете себе поставить, если хотите, лишнее от плагинов убрал и поправил те места, где правил для себя.
Сразу предупреждаю, у меня пока XF 2.2, но думаю хорошо и на 2.3 будет.
Этот вариант ничем не хуже того, что писал ранее тут. Но отличие в том, что он чище, оптимизирован и расширен на блок вредных ботов. Будет ли лучше, не знаю, сам проверяю, но отпишусь, как будут интересные результаты или наоборот. 😏
Прописывать Crawl-delay: лишь пробую, мол указывается задержка некоторая, хз будет ли толк, проверяю. Да и гугл вроде как их особо не учитывает, а вот другие могут.
В общем, уже спустя некоторое время, объём обхода вырос в разы, если верить статистике с 20 ноября по 1 декабря:
1764737646541.png
Новый шаблон работает лучше, ухудшение на тему дублей или ошибок так же не выдавало. По индексации сложно сказать, на выдаче некоторые страницы были на 4-7 страницах, сейчас на 1-3 страницах выводится, что выводилось намного дальше. Так что определенно успех есть. А вот в Google Console особо изменений не увидел, разве что ругался на запреты на чтение пользователей и постов, хотя в запретах общих не стоит, тут непонятки, как он вообще проверяет, но разве что проверенные страницы к публикации стали чуть больше, в этом плане стало лучше.

Так что по своим наблюдениями могу сказать, что новый шаблон работает отлично. По поводу прописывания .htaccess ничего не могу сказать, есть ли в этом сильная необходимость, пока не вижу у себя необходимости. Шаблоном можно пользоваться по robots точно без проблем, разве что дорабатывать по своим плагинам, если кто где выводит страницы.
 
Мне вот интересно, боты вообще стали игнорить общие правила? Стоило с яндекса убрать учёт тегов и добавить в общую, они начали в яндексе индексироваться... 🙃
Видимо яндекс на столько исключительные, то работают тока "по своим" правилам. Вернул теги на место, посмотрим вылезет ли ещё что...
1765170563643.png
1765171375047.png
Ещё и тут вылезло из-за них:
1765170890490.png
 
Последнее редактирование:
  • Мне нравится
Реакции: akok
del (не та тема)
 
Последнее редактирование:
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу