robots.txt - Инструкции и секреты настройки

robots.txt - Инструкции и секреты настройки

Пока, могу посоветовать добавить в свой robots, шаблон, который вы найдёте во вкладке "Обновление"
Именно он и стоит. Именно на него и ворчит гугл)) Честно говоря, так и не понял, что надо сделать, чтобы гугл не ругался. Также, как и не понял, насколько его ругань критична.
 
Но вот смысла в блокировке страниц темы я не нахожу, так как дублирования там нет (за исключением первого сообщения при некоторых типах тем).
Вы когда отчёты по индексации смотрели с яндексом последний раз? Ошибки были на это по дублям URL?

Откройте у себя любую тему и страницу сообщений. И открой код страницы и скажите, что вы там видите?
Заголовок на каждую страницу везде один и тот же, но мета описание он хватает с каждого 1 поста новой страницы, это если у вас не закреплено 1 сообщение на все страницы, но даже и так, избежать полного дубля даже из коробки невозможно. Потому что дублироваться везде будет Заголовок, даже пусть будет разное мета описание от каждого первого поста. Думаю логику понимаете алгоритма? Потому тут и нужно это правило Disallow: /threads/*/page-*

Однако, не могу не заметить один момент. Раз мы прописываем Get-параметр page, как и Clean-param: page, то по факту яндекс должен на их уровне игнорить вопрос дубля на эти посты. Этот момент предстоит проверить, попадут ли они на индексацию, будучи доступны и будет ли ругаться на дубли. Потому, я лично сам не могу утверждать, что правило так таково нужно, раз есть иной вариант избежать проблемы, но требует проверки, но то, что без него даёт паганицию (дубли) это факт.
 
Последнее редактирование:
Именно он и стоит. Именно на него и ворчит гугл)) Честно говоря, так и не понял, что надо сделать, чтобы гугл не ругался. Также, как и не понял, насколько его ругань критична.
Сложно сказать, вы можете оставить тока блок яндекс от шаблона, точно не будет проблем, а от гугла сделать так, как было у вас раньше, раз утверждаете, что раньше не ругался. К сожалению, пока не подскажу по нему оптимального варианта решения.
 
Sadorimatsu, не ругался гугл у меня с другим, не вашим robots.txt. Вы можете сами по Google Search Console посмотреть. Выдаст 19 проблем
 
Вы когда отчёты по индексации смотрели с яндексом последний раз? Ошибки были на это по дублям URL?
Было бы что открывать. :)
В данном случае я просто хочу понять логику работы индексирующих ботов. Они ругаются и в принципе на эту страницу не смотрят или все же остальной контент их интересует?
Как тот же 4pda живёт? Да, они не на XenForo, но не думаю, что у них что-то великое происходит ради ботов. Я к ним из поиска и на сотые страницы тем попадал, где было именно то, что было в моем запросе. А смог бы я так же туда попасть, если бы боту было запрещено туда лезть?
 
Sadorimatsu, не ругался гугл у меня с другим, не вашим robots.txt. Вы можете сами по Google Search Console посмотреть. Выдаст 19 проблем
Проверил, действительно и самое смешное, он ругается на всё, где есть упоминание Crawl-delay и Clean-param. Независимо от блока, просто гугл их не поддерживает и не обрабатывает, потому и ругается. В принципе, Crawl-delay вы можете удалить, погоды особой не делает, а вот Clean-param у яндекса я бы не трогал, однако, если нам нужна адаптация и с гуглом, то в блоке яндекс, вы просто можете прописать так:
Код:
Disallow: /*?order=
Disallow: /*?prefix_id=
Disallow: /*?desc=
Disallow: /*?page=
Disallow: /*?download_count=
Disallow: /*?accept=
Disallow: /*?update=
Disallow: /*?direction=
Disallow: /*?order=
Disallow: /*?tab_id=
Disallow: /*?rating=
Disallow: /*?t=
Удаляем там Clean-param и везде удаляем Crawl-delay и проверяем.
 
Было бы что открывать. :)
В данном случае я просто хочу понять логику работы индексирующих ботов. Они ругаются и в принципе на эту страницу не смотрят или все же остальной контент их интересует?
Как тот же 4pda живёт? Да, они не на XenForo, но не думаю, что у них что-то великое происходит ради ботов. Я к ним из поиска и на сотые страницы тем попадал, где было именно то, что было в моем запросе. А смог бы я так же туда попасть, если бы боту было запрещено туда лезть?
Не скажу, что не правы, так что вопрос требует изучения. 🧐 Изучил их настройки. Учитывая, что у них IPB, то и учёт правил отличается от XF, но при этом у них блоки есть на post, но больше как технически дубли, но сами посты они не запрещают. Возможно они тупо игнорят проблемы с дублями и у них индексурется они полностью, но при этом технические бесполезные пути они закрыли.
Код:
User-agent: *
Host: 4pda.ru
Sitemap: https://4pda.ru/sitemap.xml
Disallow: /ad/www
Disallow: /wp-admin
Disallow: /forum/dl
Disallow: /forum/index.php?*act=attach
Disallow: /forum/index.php?*act=devfaq
Disallow: /forum/index.php?*act=findpost
Disallow: /forum/index.php?*act=Login
Disallow: /forum/index.php?*act=login
Disallow: /forum/index.php?*act=rep
Disallow: /forum/index.php?*act=report
Disallow: /forum/index.php?*act=Search
Disallow: /forum/index.php?*act=search
Disallow: /forum/index.php?*act=usercp
Disallow: /forum/index.php?*act=auth
Disallow: /forum/index.php?*act=warn
Disallow: /forum/index.php?*act=post
Disallow: /forum/index.php?*act=Post
Disallow: /forum/index.php?*act=reg
Disallow: /forum/index.php?*act=Reg
Disallow: /forum/index.php?*view=
Disallow: /forum/lofiversion/
Disallow: /wp-comments-post.php
Disallow: /pages/go/?*
Disallow: /stat/go?*
Disallow: /?*s=
Disallow: /devdb/*like/
Disallow: /?*preview=true
У них довольно специфичная настройка, учитывая, что я не знаю, какие пути у IPB так таково, но в отличии от нас, у них более жёсткие запреты на техническую часть, как и на пагинацию страниц вижу, но вот посты вполне открыты. Но, у них настроены общие правила, что говорит о том, что в рамках гугла у них всё в порядке, а на яндекс им плевать. Потому со стороны яндекса у них явно индексируется прям всё... представляю какой там вагон ошибок 😁 Но тоже, если вас это не смущает, вы можете всё ботам открывать.
Да и вижу с яндексом они работают по РСЯ, согласно коду их страницы.
Код:
<!-- Yandex.RTB R-A-15635533-2 -->
<div id="yandex_rtb_R-A-15635533-2" style="position: relative; margin: 0 auto;"></div>
<script type="text/javascript">
    (function(w, d, n, s, t) {
        w[n] = w[n] || [];
        w[n].push(function() {
            Ya.Context.AdvManager.render({
                "blockId": "R-A-15635533-2",
                "renderTo": "yandex_rtb_R-A-15635533-2",
                async: true
            });
        });
        t = d.getElementsByTagName("script")[0];
        s = d.createElement("script");
        s.type = "text/javascript";
        s.src = "//an.yandex.ru/system/context.js";
        s.async = true;
        t.parentNode.insertBefore(s, t);
    })(this, this.document, "yandexContextAsyncCallbacks");
</script>
Так что и нельзя утверждать, что раньше они не пользовались директом, помимо РСЯ или иным способом продвижения.
Я ещё не исключаю, что некоторые нюансы обходов можно настроить и через конфиг nginx или .htaccess

Но всё равно, не могу подтвердить вариант запрета пагинации страниц у постов так таково. Этот момент предлагаю отложить на потом, либо проверьте лично и поделитесь наблюдениями.
 
Последнее редактирование:
Вот я о том и говорил ранее
Благодарю за проверку, позже проведу анализ и обновлю список правил с учётом гугла. А пока, у себя просто уберите, что озвучил и пропишите в яндексе правку и должно быть всё в порядке.
 
Но всё равно, не могу подтвердить вариант запрета пагинации страниц у постов так таково. Этот момент предлагаю отложить на потом, либо проверьте лично и поделитесь наблюдениями.
Опять же, мне проверять не на чем, поэтому я просто рассуждаю. Насколько критичны эти ошибки и на что они влияют?
 
Опять же, мне проверять не на чем, поэтому я просто рассуждаю. Насколько критичны эти ошибки и на что они влияют?
Объясню в сравнении, что будет с правилом и без: Disallow: /threads/*/page-*
Без этого правилаС этим правилом
Каждая страница с постами пагинации индексируется отдельноТолько первая страница темы в индексе ВСЕГДА
50 страниц одной темы = 50 URL в выдаче1 URL темы в выдаче
Краулер тратит время на сканирование /page-2, /page-3...Краулер идет на новые темы
Пользователь попадает в поиске на середину обсуждения ЧАСТАЯ ПРОБЛЕМАПользователь попадает на начало обсуждения КАК И ДОЛЖНО БЫТЬ

К тому же не забываем, что номера постов, это якоря. Они вообще не индексируются. И заголовок темы всегда ОДИН, а мета описание зависит от того, какой пост будет начинаться с КАЖДОЙ страницы т.е. дубль неизбежен.

Так понятней стало?

Что тогда делает Clean-param: page ?
/threads/1/ - основная тема
/threads/1/?page=2 - 2 страница основной темы, считается дублем, не индексируется отдельно

Кстати обратил внимание, что на страницы тем нет формата ?page, хотя на 2.2. вроде попадалось, а на 2.3 не наблюдаю, любопытно. Если это так, то Clean-param для page бесполезен и можно удалить. Потому что основной формат это page-*

Так же убедился, что и в Get-параметры понятие page бесполезно тоже.
Хм, мне следует пересмотреть актуальность переменных в этих параметрах снова. А то слишком поверхностно прошёлся. Хорошо, что указали повод проверить.
 
Последнее редактирование:
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу