robots.txt - Инструкции и секреты настройки

robots.txt - Инструкции и секреты настройки

Sadorimatsu, а где упоминание о том, что это моя идея и мой код?)
Так код базовый. Сам оригинальный код из шаблона - xfrm_resource_wrapper_macros:
1777189420025.png
Код:
<xf:if is="$resource.isVersioned()">
<span class="u-muted">{$resource.CurrentVersion.version_string}</span>
</xf:if>
Сама идея, вам вариант выше кинули. Теперь вопрос, где ваш код?😁
Тем более ваш шаблон с префиксом вообще идет, а у меня другой код без него.
За то, что обратили внимание на эту мелочь, могу лично сказать спасибо т.к. не задумывался, но в остальном за что благодарить?😁
 
Последнее редактирование:
25517, в теме, с которой весь движ пошёл никто не скидывал ссылку на старую тему. Мне дали наводку, а разбирался я сам как сделать. Поэтому в чём смысл теперь про старую тему вспоминать?

Sadorimatsu по контексту тоже не знал про эту старую тему. И ему в голову не пришла бы мысль, если бы не моя тема.

Теперь вопрос, где ваш код?
Хотите меня ещё до кучи обвинить в том, что я чей-то готовый код использовал для своего варианта? Зашибись, спасибо)
 
Хотите меня ещё до кучи обвинить в том, что я чей-то готовый код использовал для своего варианта? Зашибись, спасибо)
Так вы же это начали 😁
Мне то без разницы, кто там что. Именно ваш вариант шаблона использован не был, начнём с этого, а взят чисто с базового шаблона, который вам же показал, а вы пишите, где мое упоминание благодарности за идею и код🙃 Я лично не знал про версию т.к. не копал вопрос, пока вы не указали. За что вас и поблагодарил там и тут выше добавил, да и ещё выяснилось, что вопрос то давно был решен, просто мало кто заметил. То, что вы сами разобрались, молодцы, никто вас и не осуждает. Просто не пойму, что вы от меня то хотите.🙄 Вот чего, но претензии не пойму.😆

У нас тут что, за каждую дефолтную переделку уже авторское право появилось?🤪
 
Последнее редактирование:
CHEL74, я не пойму к чему здесь претензия ?
К тому, что из той темы взяли ~7 строчек говнокода кода ?
Или вы хотите, чтобы вас в задницу расцеловали за то, что вы решили свою проблему ?
 
Я просто вижу, что в теме вы активно дорабатываете под XFRM, и поэтому предложил ввести подобное разграничение. В целом даже если идея не приглянется, это просто мнение со стороны.
Идею рассмотрел и убрал лишние правила, вплоть до удаления 2.2 и сделал общий шаблон от 2.0 и выше, потому что как сверился по переменным, подойдёт на все версии текущий шаблон. Описание исправлено и дополнено. Так что, наслаждаемся.
 
Последнее редактирование:
Сделать robots.txt пустым и не морочить себе голову. Пустым чтобы в логах не было 404 ошибок.

User-agent: AhrefsBot
User-agent: AspiegelBot
User-agent: DotBot
User-agent: MauiBot
User-agent: MJ12bot
User-agent: PetalBot
User-agent: SemrushBot
Disallow: /

Нет таких ботов в логах. Зато есть несколько сотнет других.
Вы будете за ними бегать и искать? Смысл?

Если хоть что-то блокировать то Google на странице Webmasters начинает ругаться.
На записи только для Яндекса он тоже будет ругаться.
IndexNow если у вас курс биткоина в реальном времени, а не форум где люди пишут за жизнь, и кто-то нажал "редактирвать" на посту с рецептом блинчиков. Надо заморочится и отпавлять запросы в поискиви чтобы они срочно, очень срочно это обновили?
 
Вы будете за ними бегать и искать? Смысл?
В шаблоне прописаны наиболее вредные, можно не писать, никто не заставляет. Если конкретные донимают именно вас, то рекомендуется прописывать.
Если хоть что-то блокировать то Google на странице Webmasters начинает ругаться.
И это правильно, он и должен ругаться и гугл сам об этом пишет, что это правильно, он даже на переменные для яндекса в роботс будет ругаться и игнорить, ведь он видит только то, что в нём заложено, как и другие. Если вам плевать, чтобы индексировал всё, то конечно, можете всё открыть.
На записи только для Яндекса он тоже будет ругаться.
В основном ругаться будет на пагинацию, а когда открыто будет всё, вы такой букет ошибок словите, что и не снилось. Одни аттачи чего стоят.
IndexNow если у вас курс биткоина в реальном времени
IndexNow обновляет сразу любую запись и обновление и отправляет боту на обход, тем самым контент сразу же выходит почти на выдачу в поиске. Неважно, что вы постите и ничего, никуда отправлять не надо.

Если вы не разбираетесь в индексации и считаете, что незачем тратить время на это и вас не смущает куча ошибок на дубли и конечно полный бардак на выдаче, то да, ваш вариант имеет место быть, но учитывая сколько мусора для SEO, то так ли хорошо будут выходить конкретно на ваш контент без дополнительной рекламы или направления из вне, вот это уже вопрос. Хотя, чего уж говорить, для интереса стоит просто каждому это попробовать и вы удивитесь, что получится.
 
Последнее редактирование:
Если конкретные донимают именно вас, то рекомендуется прописывать.
Каким образом они могут кого-то донимать? Больного человека который логи апача смотрит?


Если вам плевать, чтобы индексировал всё, то конечно, можете всё открыть.

А он не индексирует всё. Нет смысла заморачиваться и писать про /style/ /css/ /js/ и т.д. всё что можно найти и придумать.

Если Gogole видит ссылку типа Вход
он понимает что на ней нет никакого контента, и она ему не интеренса. В выдаче её не будет.

Если вы её заблокировали - он всё равно будет на неё заходить. Просто не будет публично показывать.
Возьмем например https://xenforo.info/robots.txt (кстати посмотри как люди адекватные делают)

Запрещена ссылка ***/login/
Она всё равно есть в Google. Просто пустая. Он всё равно на нее заходит не смотря на запрет. Она всё равно в "выдаче". Выдача в кавычках т.к. никто и никогда не попадае на неё или на страницу /css/ или /admin.php

Если вы не разбираетесь в индексации и считаете,
Ты разбиаешься, ага :) Сделай robots.txt на 2 тысяч строк. Запрети 1 тыс. ботов и пропиши 1 тыс. параметров когда заходить по времени. Это поможет продвижению сайта!

что незачем тратить время на это и вас не смущает куча ошибок
Каких ошибок? Где ошибки? Где мне посмотреть ошибки? У меня нет никих ошибок, нет никаких "дублей". С чего ты решил если запретишь какой-то бред то не будет "дублей"? Google сам рабзерется где дубли. Сейчас не 2005 год.
И проблему дублей решают не в robots.txt а внутри HTML через тег canonical

Ты лет на 10-15 опазадал. 15 лет назад школьники продавали SEO лохам, под видом редактирования robots.txt и запрещая несуществующих ботов, несуществующих ссылок и выставляя время когда заходить.
 
Последнее редактирование:
Каким образом они могут кого-то донимать? Больного человека который логи апача смотрит?
С ботами действительно так бороться бессмысленно, если и лезут те, что нагружают, то решаются лишь на уровне сервера.
он понимает что на ней нет никакого контента, и она ему не интеренса. В выдаче её не будет.
И будете правы т.к. гугл определяет основную страницу только по "canonical" и ему плевать будет на другие. Однако, если вы не заметили, основной принцип настройки больше представлен для более эффективной работы яндекса, гугл тут поверхностно раскрыт. С точки зрения гугла, вы будете правы, что нет причин блокировать всё и ограничится лишь техническими запретами, пример который вы показали на роботс инфо и с тем условием, если у вас только XF, то да, этого достаточно, но даже с их запретами гугл будет ругаться, однако речь не про инфо, вы же привызываете вообще ничего не прописывать, получается сами себе противоречите? К тому же, изначально тут указывал разбор по яндексу и для него общий порядок шаблона, который наиболее эффективно себя отрабатывает, как показывают тесты. Гугл тоже это пошло на пользу. Так что говорить о том, что это не нужно, как минимум странно.

Вероятно стоит расписать пояснение по каждому пункту, что и для чего блокировать, если у кого-то нет понимания. Тогда видимо у всех пропадут вопросы для чего всё это.
Ты разбиаешься, ага :) Сделай robots.txt на 2 тысяч строк. Запрети 1 тыс. ботов и пропиши 1 тыс. параметров когда заходить по времени.
Сарказм уместен, но к вашему счастью, достаточно разобрался, чтобы понимать общий принцип, хоть я и не спец в этом, а такой же пользователь, как и все, но мне надоели проблемы индексации и решил покопаться в этой теме и на удивление обнаружил для себя много полезных решений и делюсь этим со всеми. Проблема не новая, но никто в плотную этим даже не пытался заниматься, вот что странно. К тому же незачем делать robots.txt на 2к строк и запрещать всех ботов, их не так много, как вы представляете, не нужно фантазировать.
Каких ошибок? Где ошибки? Где мне посмотреть ошибки? У меня нет никих ошибок, нет никаких "дублей". С чего ты решил если запретишь какой-то бред то не будет "дублей"? Google сам рабзерется на дубли. Проблему дублей решают не в robots.txt а внутри HTML через canonical
Вебмастер яндекса, гугл консоль, bing консоль и т.д. Странно спрашивать очевидное. Раз вас всё устраивает, то рад за вас. Как раз запрещается не бред, а лишние дубли, которые влияют на чистоту выдачи. Я понятии не имею, как у вас работает продвижение, обычно многие привыкли платить за рекламу или покупать место на других сайтах для продвижения, но речь не об этом, а об чистой индексации без дополнительного продвижения, которое многим даже не нужно, всё упирается в задачи. Проблему дублей вы верно отметили, но не учли, что многие URL в этом не нуждаются.
Ты лет на 10-15 опазадал. 15 лет назад школьники продавали SEO лохам, под видом редактирования robots.txt и запрещая несуществующих ботов, несуществующих ссылок и выставляя время когда заходить.
Основная потребность в основном отпала на момент 2025 года, если быть точным, но и исключать базовую настройку не стоит. Видимо у вас своё неприятное прошлое на эту тему, к чему вы это указываете в моём ключе не понимаю, когда для всех разбираю вопрос и делюсь информацией, вы же пытаетесь компрометировать это тем, что это не нужно. Я не отрицаю ваш выбор, это тоже вариант продвижения и не раз об этом упоминал в теме для всех, вопрос уже в эффективности и того, какие костыли вы поставите для улучшения ситуации того, что могли бы сделать изначально правильно. И для справки, я в этой теме варюсь достаточно давно, со времен vB3+, так что прекрасно знаю, что творилось за последние 20 лет в этой теме, но это моё хобби, профессионально не занимаюсь и знать всё не обязан тоже, разбираю те вопросы, что важны и изучаю те CMS (в основном форумные), что мне интересны и учить вас не собираюсь, как и убеждать в обратном. Раньше, как и вы тоже считал, что на роботс не стоит обращать внимание, поработав с XF 2+, убеждаюсь в обратном. Учитывая, что делал перерыв с XF на лет так 6-7 с момента его релиза. Делайте выводы, спорить дальше не вижу смысла. Если считаете иначе, ок, приведите весомые доводы, почему нужно так и так и как это будет эффективно на сегодняшний день, если вы такой специалист в этой области, то предлагайте реальные решения, а не пустой трёп, уж простите. Я тоже не во всём могу быть прав и проверяю разные варианты и буду рад любой конструктивной критике и улучшению. Ресурс с темой создан для улучшения индексации на XF без лишних затрат на это. Если вы что-то полезное знаете, то поделитесь с людьми. Это будет наиболее полезно, чем пустая болтовня об этом. К тому же все базовые вопросы поднимал в теме и проверял основные моменты. Если можете указать на ошибку, то прошу, буду рад добавить в общий мануал, если это будет полезно.
 
Последнее редактирование:
По строке:

Код:
Disallow: /forums/*/page-*

я бы был осторожен и не добавлял её в robots.txt вслепую

На первый взгляд кажется, что это просто закрытие дублей пагинации разделов форума. Но в XenForo такие URL - это не технический мусор в чистом виде, а страницы списка тем внутри конкретного раздела.

Например:

Код:
/forums/novosti.10/page-2
/forums/novosti.10/page-3
/forums/pomosch.15/page-4

То есть это вторая, третья и последующие страницы раздела, где лежат более старые темы.

С точки зрения индексации сами такие страницы действительно не всегда представляют большую SEO-ценность. Они часто содержат похожий title, похожий список тем и могут восприниматься как слабые страницы. Но важный момент в другом: через эти страницы поисковый робот часто находит старые темы, которые уже ушли с первой страницы раздела.

Если закрыть:

Код:
Disallow: /forums/*/page-*

то роботам будет запрещён обход этих страниц. В результате старые темы могут хуже обнаруживаться и реже переобходиться, особенно если:

форум большой
тем много
старые темы важны для поискового трафика
внутренняя перелинковка слабая
темы быстро уходят с первой страницы раздела.

Поэтому я бы разделял две разные задачи:

убрать из индекса мусорные, фильтровые и технические URL
не мешать поисковику обходить нормальную структуру форума

Пагинация разделов находится где-то посередине. Она не всегда нужна в индексе как самостоятельная страница, но часто нужна для обхода старых тем. Поэтому закрывать её именно через robots.txt = спорное решение.

Я бы в первую очередь закрывал не пагинацию разделов, а параметры сортировки, фильтры и технические дубли:

Код:
Disallow: /*?*order=
Disallow: /*?*direction=
Disallow: /*?*prefix_id=
Disallow: /*?*last_days=
Disallow: /*?*starter_id=
Disallow: /*/reactions
Disallow: /*/latest

А вот строку:

Код:
Disallow: /forums/*/page-*

я бы добавлял только в том случае, если уже точно понятно, что:

все темы стабильно попадают в sitemap
sitemap регулярно обновляется
старые темы доступны через другие внутренние ссылки
поисковики нормально обходят темы без пагинации разделов
в Search Console / ЯндексеВебмастере видно, что именно эти страницы создают проблему

Если такой уверенности нет, лучше оставить пагинацию разделов открытой для обхода. Пусть поисковик сам решает, индексировать эти страницы или нет. В XenForo обычно важнее не отрезать роботу путь к старым темам, чем механически закрыть все page-2, page-3 и дальше.

То есть я бы не считал /forums/*/page-* обязательной строкой для robots.txt. Для маленького форума она может быть безвредной, а для большого форума с большим количеством старых тем - уже рискованной.
 
то роботам будет запрещён обход этих страниц. В результате старые темы могут хуже обнаруживаться и реже переобходиться, особенно если:
Disallow: /forums/*/page-*
Вас удивлю, сами темы на этих страницах доступны всегда и без проблем. Закрывается доступ индексировать постраничные страницы списка тем, но сами темы это не затрагивает, потому что это правило ничуть не мешает индексации конкретно тем. Зачем боту страница списка тем, которая имеет одинаковое описание от раздела и хватает заголовок от последней темы в начале страницы? Прежде чем рекомендовать это правило, тщательно проверял доступность тем. Она не имеет ценности для SEO. Для теста вбейте напрямую любую старую тему в поиске и посмотрите, как её выводит, это даст ответ на ваш вопрос. Конечно, если шаблон доработать с выдачей рандомного описания, то можно решить проблему с правильной подачей для индексации и тут, по принципу как устроен учёт постов в теме, но так ли это надо? Разве что можно рассмотреть кастомное решение для доработки конкретно этих страниц. Я лично тоже не вижу причин их закрывать, но если стоит важность их оставить, то стоит рассмотреть модификатор шаблона, который исправит это недоразумение, будет ли решение на этот счёт? Открыть правило мы можем, но ошибки никуда не денутся, которые можно и игнорировать конечно. Но раз стоит вопрос открыть путь просмотра индексации именно тут, то нужно рассмотреть, какое решение лучше всего подойдёт. Я за то, чтобы блокировать меньше для максимальной эффективности.

Основная проблема этой страницы в том, что везде есть разный заголовок от первой темы на странице, но везде одно описание от раздела. Нужно придумать, где ему брать разное описание на каждой странице. Какие будут предложения?
Disallow: /*?*order=
Disallow: /*?*direction=
Disallow: /*?*prefix_id=
Disallow: /*?*last_days=
Disallow: /*?*starter_id=
Вот так блокировать, я бы точно не рекомендовал без на той необходимости, потому что так вы блочите всё, что идёт с этим упоминанием. В яндексе для такого лучше прописывать clean-param, а на общем блоке лучше так не указывать. В описании об этом как раз приводил пример.
 
Последнее редактирование:
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу