robots.txt - Инструкции и секреты настройки

CHEL74 · 22 Мар 2026

Sadorimatsu написал(а):
Пока, могу посоветовать добавить в свой robots, шаблон, который вы найдёте во вкладке "Обновление"

Именно он и стоит. Именно на него и ворчит гугл)) Честно говоря, так и не понял, что надо сделать, чтобы гугл не ругался. Также, как и не понял, насколько его ругань критична.

Sadorimatsu · 22 Мар 2026

Atikin написал(а):
Но вот смысла в блокировке страниц темы я не нахожу, так как дублирования там нет (за исключением первого сообщения при некоторых типах тем).

Вы когда отчёты по индексации смотрели с яндексом последний раз? Ошибки были на это по дублям URL?

Откройте у себя любую тему и страницу сообщений. И открой код страницы и скажите, что вы там видите?
Заголовок на каждую страницу везде один и тот же, но мета описание он хватает с каждого 1 поста новой страницы, это если у вас не закреплено 1 сообщение на все страницы, но даже и так, избежать полного дубля даже из коробки невозможно. Потому что дублироваться везде будет Заголовок, даже пусть будет разное мета описание от каждого первого поста. Думаю логику понимаете алгоритма? Потому тут и нужно это правило Disallow: /threads/*/page-*

Однако, не могу не заметить один момент. Раз мы прописываем Get-параметр page, как и Clean-param: page, то по факту яндекс должен на их уровне игнорить вопрос дубля на эти посты. Этот момент предстоит проверить, попадут ли они на индексацию, будучи доступны и будет ли ругаться на дубли. Потому, я лично сам не могу утверждать, что правило так таково нужно, раз есть иной вариант избежать проблемы, но требует проверки, но то, что без него даёт паганицию (дубли) это факт.

Sadorimatsu · 22 Мар 2026

CHEL74 написал(а):
Именно он и стоит. Именно на него и ворчит гугл)) Честно говоря, так и не понял, что надо сделать, чтобы гугл не ругался. Также, как и не понял, насколько его ругань критична.

Сложно сказать, вы можете оставить тока блок яндекс от шаблона, точно не будет проблем, а от гугла сделать так, как было у вас раньше, раз утверждаете, что раньше не ругался. К сожалению, пока не подскажу по нему оптимального варианта решения.

CHEL74 · 22 Мар 2026

Sadorimatsu, не ругался гугл у меня с другим, не вашим robots.txt. Вы можете сами по Google Search Console посмотреть. Выдаст 19 проблем

Atikin · 22 Мар 2026

Sadorimatsu написал(а):
Вы когда отчёты по индексации смотрели с яндексом последний раз? Ошибки были на это по дублям URL?

Было бы что открывать. :)
В данном случае я просто хочу понять логику работы индексирующих ботов. Они ругаются и в принципе на эту страницу не смотрят или все же остальной контент их интересует?
Как тот же 4pda живёт? Да, они не на XenForo, но не думаю, что у них что-то великое происходит ради ботов. Я к ним из поиска и на сотые страницы тем попадал, где было именно то, что было в моем запросе. А смог бы я так же туда попасть, если бы боту было запрещено туда лезть?

Sadorimatsu · 22 Мар 2026

CHEL74 написал(а):
Sadorimatsu, не ругался гугл у меня с другим, не вашим robots.txt. Вы можете сами по Google Search Console посмотреть. Выдаст 19 проблем

Проверил, действительно и самое смешное, он ругается на всё, где есть упоминание Crawl-delay и Clean-param. Независимо от блока, просто гугл их не поддерживает и не обрабатывает, потому и ругается. В принципе, Crawl-delay вы можете удалить, погоды особой не делает, а вот Clean-param у яндекса я бы не трогал, однако, если нам нужна адаптация и с гуглом, то в блоке яндекс, вы просто можете прописать так:

Код:

Disallow: /*?order=
Disallow: /*?prefix_id=
Disallow: /*?desc=
Disallow: /*?page=
Disallow: /*?download_count=
Disallow: /*?accept=
Disallow: /*?update=
Disallow: /*?direction=
Disallow: /*?order=
Disallow: /*?tab_id=
Disallow: /*?rating=
Disallow: /*?t=

Удаляем там Clean-param и везде удаляем Crawl-delay и проверяем.

Sadorimatsu · 22 Мар 2026

Atikin написал(а):
Было бы что открывать. :)
В данном случае я просто хочу понять логику работы индексирующих ботов. Они ругаются и в принципе на эту страницу не смотрят или все же остальной контент их интересует?
Как тот же 4pda живёт? Да, они не на XenForo, но не думаю, что у них что-то великое происходит ради ботов. Я к ним из поиска и на сотые страницы тем попадал, где было именно то, что было в моем запросе. А смог бы я так же туда попасть, если бы боту было запрещено туда лезть?

Не скажу, что не правы, так что вопрос требует изучения.

Изучил их настройки. Учитывая, что у них IPB, то и учёт правил отличается от XF, но при этом у них блоки есть на post, но больше как технически дубли, но сами посты они не запрещают. Возможно они тупо игнорят проблемы с дублями и у них индексурется они полностью, но при этом технические бесполезные пути они закрыли.

Код:

User-agent: *
Host: 4pda.ru
Sitemap: https://4pda.ru/sitemap.xml
Disallow: /ad/www
Disallow: /wp-admin
Disallow: /forum/dl
Disallow: /forum/index.php?*act=attach
Disallow: /forum/index.php?*act=devfaq
Disallow: /forum/index.php?*act=findpost
Disallow: /forum/index.php?*act=Login
Disallow: /forum/index.php?*act=login
Disallow: /forum/index.php?*act=rep
Disallow: /forum/index.php?*act=report
Disallow: /forum/index.php?*act=Search
Disallow: /forum/index.php?*act=search
Disallow: /forum/index.php?*act=usercp
Disallow: /forum/index.php?*act=auth
Disallow: /forum/index.php?*act=warn
Disallow: /forum/index.php?*act=post
Disallow: /forum/index.php?*act=Post
Disallow: /forum/index.php?*act=reg
Disallow: /forum/index.php?*act=Reg
Disallow: /forum/index.php?*view=
Disallow: /forum/lofiversion/
Disallow: /wp-comments-post.php
Disallow: /pages/go/?*
Disallow: /stat/go?*
Disallow: /?*s=
Disallow: /devdb/*like/
Disallow: /?*preview=true

У них довольно специфичная настройка, учитывая, что я не знаю, какие пути у IPB так таково, но в отличии от нас, у них более жёсткие запреты на техническую часть, как и на пагинацию страниц вижу, но вот посты вполне открыты. Но, у них настроены общие правила, что говорит о том, что в рамках гугла у них всё в порядке, а на яндекс им плевать. Потому со стороны яндекса у них явно индексируется прям всё... представляю какой там вагон ошибок

Но тоже, если вас это не смущает, вы можете всё ботам открывать.
Да и вижу с яндексом они работают по РСЯ, согласно коду их страницы.

Код:

<!-- Yandex.RTB R-A-15635533-2 -->
<div id="yandex_rtb_R-A-15635533-2" style="position: relative; margin: 0 auto;"></div>
<script type="text/javascript">
    (function(w, d, n, s, t) {
        w[n] = w[n] || [];
        w[n].push(function() {
            Ya.Context.AdvManager.render({
                "blockId": "R-A-15635533-2",
                "renderTo": "yandex_rtb_R-A-15635533-2",
                async: true
            });
        });
        t = d.getElementsByTagName("script")[0];
        s = d.createElement("script");
        s.type = "text/javascript";
        s.src = "//an.yandex.ru/system/context.js";
        s.async = true;
        t.parentNode.insertBefore(s, t);
    })(this, this.document, "yandexContextAsyncCallbacks");
</script>

Так что и нельзя утверждать, что раньше они не пользовались директом, помимо РСЯ или иным способом продвижения.
Я ещё не исключаю, что некоторые нюансы обходов можно настроить и через конфиг nginx или .htaccess

Но всё равно, не могу подтвердить вариант запрета пагинации страниц у постов так таково. Этот момент предлагаю отложить на потом, либо проверьте лично и поделитесь наблюдениями.

CHEL74 · 22 Мар 2026

Sadorimatsu написал(а):
он ругается на всё, где есть упоминание Crawl-delay и Clean-param.

Вот я о том и говорил ранее

Sadorimatsu · 22 Мар 2026

CHEL74 написал(а):
Вот я о том и говорил ранее

Благодарю за проверку, позже проведу анализ и обновлю список правил с учётом гугла. А пока, у себя просто уберите, что озвучил и пропишите в яндексе правку и должно быть всё в порядке.

Atikin · 22 Мар 2026

Sadorimatsu написал(а):
Но всё равно, не могу подтвердить вариант запрета пагинации страниц у постов так таково. Этот момент предлагаю отложить на потом, либо проверьте лично и поделитесь наблюдениями.

Опять же, мне проверять не на чем, поэтому я просто рассуждаю. Насколько критичны эти ошибки и на что они влияют?

Sadorimatsu · 22 Мар 2026

Atikin написал(а):
Опять же, мне проверять не на чем, поэтому я просто рассуждаю. Насколько критичны эти ошибки и на что они влияют?

Объясню в сравнении, что будет с правилом и без: Disallow: /threads/*/page-*

Без этого правила	С этим правилом
Каждая страница с постами пагинации индексируется отдельно	Только первая страница темы в индексе ВСЕГДА
50 страниц одной темы = 50 URL в выдаче	1 URL темы в выдаче
Краулер тратит время на сканирование /page-2, /page-3...	Краулер идет на новые темы
Пользователь попадает в поиске на середину обсуждения ЧАСТАЯ ПРОБЛЕМА	Пользователь попадает на начало обсуждения КАК И ДОЛЖНО БЫТЬ

К тому же не забываем, что номера постов, это якоря. Они вообще не индексируются. И заголовок темы всегда ОДИН, а мета описание зависит от того, какой пост будет начинаться с КАЖДОЙ страницы т.е. дубль неизбежен.

Так понятней стало?

Что тогда делает Clean-param: page ?
/threads/1/ - основная тема
/threads/1/?page=2 - 2 страница основной темы, считается дублем, не индексируется отдельно

Кстати обратил внимание, что на страницы тем нет формата ?page, хотя на 2.2. вроде попадалось, а на 2.3 не наблюдаю, любопытно. Если это так, то Clean-param для page бесполезен и можно удалить. Потому что основной формат это page-*

Так же убедился, что и в Get-параметры понятие page бесполезно тоже.
Хм, мне следует пересмотреть актуальность переменных в этих параметрах снова. А то слишком поверхностно прошёлся. Хорошо, что указали повод проверить.

Sadorimatsu · 23 Мар 2026

Sadorimatsu обновил(а) ресурс robots.txt - Инструкции и секреты настройки новой записью:

Новая стратегия XF 2.3 v3

Новый шаблон 2.3 v3:

Код:

User-agent: *
Disallow: /account/
Disallow: /attachments/
Disallow: /admin.php
Disallow: /birthdays/
Disallow: /cdn-cgi/
Disallow: /conversations/
Disallow: /forums/*/page-*
Disallow: /featured/
Disallow: /goto/
Disallow: /help/
Disallow: /lfs/
Disallow: /login/
Disallow: /lost-password/
Disallow: /members/
Disallow: /misc/
Disallow: /misc/cookies
Disallow: /misc/style-variation
Disallow: /misc/style?*
Disallow...

Узнать больше об этом обновлении...

CHEL74 · 23 Мар 2026

Sadorimatsu написал(а):
Объясню в сравнении, что будет с правилом и без: Disallow: /threads/*/page-*

Без этого правила С этим правилом
Каждая страница с постами пагинации индексируется отдельно Только первая страница темы в индексе ВСЕГДА
50 страниц одной темы = 50 URL в выдаче 1 URL темы в выдаче
Краулер тратит время на сканирование /page-2, /page-3... Краулер идет на новые темы
Пользователь попадает в поиске на середину обсуждения ЧАСТАЯ ПРОБЛЕМА Пользователь попадает на начало обсуждения КАК И ДОЛЖНО БЫТЬ

Судя по тому, что вы описали, мы всё же теряем трафик, который может прийти с заинтересовавших комментариев на 2+ страницах. И это выглядит критичнее, чем какие-то там общие советы Яндекса.

И сразу же возникает вопрос. А может хрен с ними с этими дублями?) Или может, проблему с ними можно решить как-то не прибегая к закрыванию от индексации страниц обсуждения?

Sadorimatsu · 23 Мар 2026

CHEL74, если вам пофиг на ошибки дублей и чистоту индексации, что при запросе выйдут на какой-то пост в теме, то вперёд. Я не к чему не призываю. Но если ваш основной контент зависим от постов, то конечно это критично, в ином другом случае нет. Все упирается в вашу структуру проекта, о чем в начале мануала в цитате обозначаю, чтобы вы убедились, что настройка вам подходит. Идеально для всех ее не будет.

На уровне robots такой вопрос вряд ли решаем иначе из коробки. По крайне мере сам не знаю. Основная проблема упирается тут в общие заголовки при смене страницы. Если за счет плагина он бы чуток менялся в коде страницы, но визуально не отображалось и пост не крепился на все страницы, то без этого правила можно смело обойтись и будет все правильно работать, в ином другом случае нет. В результате вы обречены на дубли. Потому в обновлении шаблона v3 об этом предупреждаю.

CHEL74 · 23 Мар 2026

Сравнивая 2 и 3 версии, вижу, что в 3 исчезло это правило:

Код:

User-agent: trendictionbot
Disallow: /

Случайно удалили или тоже не актуально?

Sadorimatsu · 23 Мар 2026

CHEL74 написал(а):
Сравнивая 2 и 3 версии, вижу, что в 3 исчезло это правило:

Код:

User-agent: trendictionbot Disallow: /

Случайно удалили или тоже не актуально?

Не особо актуально. Боты все равно правила игнорируют чаще всего, если будет нужно, можете добавить, особо агрессивных лучше сразу блочить на уровне конфига сервера.

Sadorimatsu · 23 Мар 2026

Повторюсь, вы можете хоть все открыть ботам. Индексации будет 100% на все, будет ли от этого чаще выходить в поиске? Нет, потому что частота появления зависит от активного посещения и уникальности наименования страницы, но будет ли шансы выше при поиске выйти на что-то связанное с темой, да. Гугл на пагинацию сильно не ругается, как посмотрю, а вот Яндекс в этом капризен, потому нужно проверять все. Например, можете с общего блока убрать неудобные запреты, а на Яндекс оставить.

CHEL74 · 23 Мар 2026

Sadorimatsu написал(а):
Но если ваш основной контент зависим от постов, то конечно это критично, в ином другом случае нет. Все упирается в вашу структуру проекта, о чем в начале мануала в цитате обозначаю, чтобы вы убедились, что настройка вам подходит. Идеально для всех ее не будет.

Если исходить из того, что ваш robots.txt публичный, то я думаю, большинству будет всё же полезнее индексация страниц. Я совсем недавно был простым юзером и могу сказать, что в комментарии с поиска я залетал очень много раз. Именно там зачастую очень полезные размышления людей по разным вопросам.

Нередко бывают на форумах ветки, которые на том и построены, что каждый комментарий полезен. Например, на одном форуме помню был склад полезного кода. Там в каждом комментарии разработчики публиковали различные части кода с описанием их функционала.

Тут думаю, будет лучше убрать блокировку индексации страниц и добавить в описание то, что для уменьшения количества дублей можно добавить строчку и описать последствия действий. Но решать вам. В любом случае спасибо за проделанную работу. Так глубоко в этой теме мало кто стал бы разбираться, а тут уже готовое решение.

Sadorimatsu · 23 Мар 2026

CHEL74 написал(а):
Нередко бывают на форумах ветки, которые на том и построены, что каждый комментарий полезен. Например, на одном форуме помню был склад полезного кода. Там в каждом комментарии разработчики публиковали различные части кода с описанием их функционала.

Тут вы правы и сам с этим согласен, что посты блочить во вред себе, НО для алгоритмов того же яндекса, плевать что вы там хотели, есть стандарт и вы обязаны ему следовать, ибо же ловите кучу ошибок и не обвиняйте нас, что вы плохо показываетесь. Как бы они на это ответили.

Вам ничто не мешает забить на некоторые моменты, важно блочить технические пути, а на другое открыть и игнорировать на то, что ругаются в вам вебмастере яндекс или консоли гугла, важно, чтобы robots был правильно настроен для их индексации и ваш основной контент доступен, а уж как это будет индексироваться, уже покажет активность вашего проекта. Чем проект активно посещаем, тем он чаще и светится в поиске. Однако, если хочется прям без ошибок и дубля, то шаблон такой подачи, я вам предоставил, а вы вольны его подгонять под свои нужды. Я ведь не SEO специалист, а такой же пользователь, просто решил поковырять эту тему глубже.

CHEL74 написал(а):
Тут думаю, будет лучше убрать блокировку индексации страниц и добавить в описание то, что для уменьшения количества дублей можно добавить строчку и описать последствия действий. Но решать вам. В любом случае спасибо за проделанную работу. Так глубоко в этой теме мало кто стал бы разбираться, а тут уже готовое решение.

На 2.2 версии на пагинацию не обращал внимание и вопрос дублей меня не беспокоил, а вот на 2.3 это прям остро встало. Вы можете посмотреть в описании 2.2 v1, я на нём просидел 9 месяцев и прекрасно себя чувствовал, о чём-то да говорит. Позже уже пошли эксперименты.
Сейчас текущий шаблон 2.3 v3 открывает доступ ко всему вашему контенту, блокируя ненужную пагинацию и страницы, но именно это правило Disallow: /threads/*/page-* будет блокировать страницы пагинацию постов в любой теме, если для многих это критично, то удаляем с шаблона в обоих блоках, либо убираем с общего, а на яндекс оставьте. Тут смотрите на своё усмотрение.

Касаемо правила Disallow: /threads/*/page-* проведу лично тесты на своём проекте, мне он не критичен. Пока он у меня стоит, я посмотрю на сколько будет чиста индексация, но лично меня не устраивало, что при поиске нужной темы, мне выводило не начало темы, а хрен пойми какую страницу с бесполезным постом и он индексировался лучше, чем главная страница темы.

Sadorimatsu · 23 Мар 2026

Описание мануала поправил, портянка стала чуть меньше и более конструктивней, так же поправил старые варианты шаблонов с учётом требований Google и отметил моменты, которые стоит сразу учесть.

robots.txt - Инструкции и секреты настройки

CHEL74

Sadorimatsu

Sadorimatsu

CHEL74

Atikin

Король шутов

Sadorimatsu

Sadorimatsu

CHEL74

Sadorimatsu

Atikin

Король шутов

Sadorimatsu

Sadorimatsu

CHEL74

Sadorimatsu

CHEL74

Sadorimatsu

Sadorimatsu

CHEL74

Sadorimatsu

Sadorimatsu

Мы ценим вашу конфиденциальность