Файл robots.txt

немного страшилок.. дергануло меня выгрузить, все страницы которые болтаются в поиске яндекса, по результатам изучения родился вот такой вот франкештейн. Гарантировать, что верно, не буду, но "это" тоже имеет право на существование.
# robots.txt
User-agent: Bytespider
Disallow: /

User-agent: Yandex
Disallow: */rate$
Disallow: */filters$
Disallow: */reactions$
Disallow: */preview$
Disallow: */review$
Disallow: */insert-gif$
Disallow: */tag-auto-complete$
Disallow: */post-thread*
Disallow: /login/
Disallow: /admin.php
Disallow: /whats-new/
Disallow: /posts/
Disallow: /members/
Disallow: /goto/
Disallow: /search/
Disallow: /attachments/
Disallow: /lost-password/
Disallow: /forums/*/page*
Disallow: /account-confirmation/
Clean-param: order&direction
Clean-param: do&dlfileid
Clean-param: act&do&id
Clean-param: team

User-agent: *
Disallow: /login/
Disallow: /admin.php
Disallow: /whats-new/
Disallow: /posts/
Disallow: /members/
Disallow: /goto/
Disallow: /search/
Disallow: /attachments/
Disallow: /lost-password/
Disallow: */post-thread*

В общем не включайте обход по счетчикам.
Я страницы в форуме от 1 до 23000 заколхозил через эксель :D
Код:
Disallow: /page-5000/
23000 строк)



что означает?
Код:
Disallow: /forums/*/page*

такая:
Код:
Disallow: /page-5000/
дирректива не верная? я не закрыл страницы?
 
Последнее редактирование:
Закрывает страницы пагинации в разделах от поиска.... хотя сейчас скорее всего рекомендует не индексировать эти страницы. Яндексу не нравились дубли заголовков.

дирректива не верная? я не закрыл страницы?
В яндекс вебмастере есть неплохой тестер файла роботс.тхт. Насколько я помню у файла есть лимиты на размер в 500 КБ
 
Смотрю достаточно обширная тема. Подскажите на счёт закрытия от индексации страниц пагинации в Гугле и Яндексе. Стоит ли это делать? Так как в теории, ничего плохо-го в этом нет, ведь тема - это отдельная страница, а в разделе форума основная по сути первая страница, что логично, для того, что бы закрыть от индекса в Гугле и Яндекс, тем более что Яндекс ругается.
А что на счёт закрытия от индексации ссылок на посты такого плана
Код:
https://xenforo.info/threads/%D0%A4%D0%B0%D0%B9%D0%BB-robots-txt.466/post-468623
Disallow: /threads/*/post-*
Кто что думает для гугла и Яндекса?
И вообще чем это может грозить?
И страницы внутри темы ?
Стоит ли закрывать страницы внутри темы? (/threads/*/page-5)
 
Последнее редактирование:
А кто то может делал плагин Index Now под Яндекс и Гугл? Точнее переделывал ли текущий от Andy?
Речь об Indexing API
 
а зачем он вообще нужен..?
karinochka, Если речь о robots.txt - то мы подсказываем поисковому роботу, что индексировать, а на что не тратить его ресурсы.
А если про indexing API, то мы отправляем поисковику сигнал, что у нас появилась новая страница, которую нужно проиндексировать, а если удаляем то и поисковой системе говорим, что страница удалена. Так наиболее эффективно индексируются страницы и обновляется инфа у поисковика.
Угрожать может только статья криминального кодекса РФ:)
Brillias, Если мы будем цеплять к формулировкам построения предложений и донесения сути через двойной смысл, у нас разговор не получится. Все же прекрасно поняли о чем речь. Когда вопрос был задан: "чем это может грозить?".

Все же хотелось бы услышать ответ на предыдущие два вопроса про:
  1. Disallow: /threads/*/post-*
  2. Переделывал ли кто-то текущий от Andy плагин Index Now? Речь об Indexing API
  3. Стоит ли закрывать страницы внутри темы? (/threads/*/page-5)
 
Последнее редактирование:
bianchi, а есть ли смысл закрывать ссылки на посты от индексации в тредах? Всё равно же там редирект висит.
И кажется Indexing API завезли в 2.3, так что смысла делать что-либо в этом плане для 2.х нет, только бэкпортить разве что.
 
bianchi, а есть ли смысл закрывать ссылки на посты от индексации в тредах? Всё равно же там редирект висит.
И кажется Indexing API завезли в 2.3, так что смысла делать что-либо в этом плане для 2.х нет, только бэкпортить разве что.
Да яндекс ругается и смотрю в гугл залетает с переадресацией... Не знаю имеет ли смысл в темах закрыть, вот и спрашиваю, как лучше?
Для XF 2.3 по-моему только Bing сделали. (но не уверен, не изучал прям так детально что там в 2,3)
 
karinochka, Если речь о robots.txt - то мы подсказываем поисковому роботу, что индексировать, а на что не тратить его ресурсы.
А если про indexing API, то мы отправляем поисковику сигнал, что у нас появилась новая страница, которую нужно проиндексировать, а если удаляем то и поисковой системе говорим, что страница удалена. Так наиболее эффективно индексируются страницы и обновляется инфа у поисковика.

Brillias, Если мы будем цеплять к формулировкам построения предложений и донесения сути через двойной смысл, у нас разговор не получится. Все же прекрасно поняли о чем речь. Когда вопрос был задан: "чем это может грозить?".

Все же хотелось бы услышать ответ на предыдущие два вопроса про:
  1. Disallow: /threads/*/post-*
  2. Переделывал ли кто-то текущий от Andy плагин Index Now? Речь об Indexing API
  3. Стоит ли закрывать страницы внутри темы? (/threads/*/page-5)
как все сложно, ужас
 
  • Мне нравится
Реакции: smc
Меня как-то задрало уведомление в вебмастере, что в указанных страницах нет мета-описание. В итоге, можно сказать психанул и пошёл в разнос и на удивление это помогло и даже индексация стала более точной.
Код:
User-agent: *
Disallow: /help/
Disallow: /register/
Disallow: /search/
Disallow: /members/
Disallow: /birthdays/
Disallow: /tags/
Disallow: /resources/
Disallow: /resources/featured
Disallow: /resources/categories/*/featured
Disallow: /resources/*/history
Disallow: /resources/*/?history
Disallow: /resources/*/updates
Disallow: /resources/*/?updates
Disallow: /resources/*/updates?
Disallow: /resources/?prefix
Disallow: /resources/?page
Disallow: /resources/*/extra
Disallow: /resources/*/reviews
Disallow: /resources/*/?reviews
Disallow: /resources/*/update/*/reactions
Disallow: /threads/*/?page
Disallow: /threads/*/reply
Disallow: /misc/
Disallow: /resources/authors/
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /posts/
Disallow: /login/
Disallow: /admin.php
Disallow: /?
Allow: /
Мой вариант блочит ботам все лишнее, делая акцент на страницы тем и ресурсов, ничего лишнего, да и на выдачу они всегда приоритет должны быть всегда. Учитывать им списки страниц, обновлений, рецензий и прочее лишний мусор, на выдаче никак нормально это не пропустят. Многие скажут, что не стоит на вебмастере обращать внимание на ошибку, что где-то нет мета-описания, в целом это мало на что влияет, однако по личному опыту убедился, что индексация без лишнего мусора идет быстрей и точно. Правда это лишь мой вариант эксперимента, ещё не раз думаю изменю, вырабатывая более эффективные варианты. Заморачиваться или нет, дело каждого. На оф.форум я бы не опирался в этом вопросе.

На офе например настройка такая:
Код:
User-agent: PetalBot
User-agent: AspiegelBot
User-agent: AhrefsBot
User-agent: SemrushBot
User-agent: DotBot
User-agent: MauiBot
User-agent: MJ12bot
Disallow: /community/

User-agent: Amazonbot
Disallow: /community/threads/*/reply

User-agent: *
Disallow: /community/whats-new/
Disallow: /community/account/
Disallow: /community/attachments/
Disallow: /community/goto/
Disallow: /community/posts/
Disallow: /community/login/
Disallow: /community/search/
Disallow: /community/admin.php
Allow: /

Sitemap: https://xenforo.com/community/sitemap.xml
Возникает вопрос, а есть ли смысл прописывать этих ботов, как у них на оф.форуме? Как считаете? И рекомендуется ли нам прописывать иначе на текущий момент?
 
Последнее редактирование:
Разве в ксене карта не в .php?
Все верно, этот момент тоже не понял у них. Если проверить, то карта сайта всё равно будет выводится так же, как и при php, разницы и нет, что указать получается.
 
Меня как-то задрало уведомление в вебмастере, что в указанных страницах нет мета-описание. В итоге, можно сказать психанул и пошёл в разнос и на удивление это помогло и даже индексация стала более точной.
Код:
User-agent: *
Disallow: /help/
Disallow: /register/
Disallow: /search/
Disallow: /members/
Disallow: /birthdays/
Disallow: /tags/
Disallow: /resources/
Disallow: /resources/featured
Disallow: /resources/categories/*/featured
Disallow: /resources/*/history
Disallow: /resources/*/?history
Disallow: /resources/*/updates
Disallow: /resources/*/?updates
Disallow: /resources/*/updates?
Disallow: /resources/?prefix
Disallow: /resources/?page
Disallow: /resources/*/extra
Disallow: /resources/*/reviews
Disallow: /resources/*/?reviews
Disallow: /resources/*/update/*/reactions
Disallow: /threads/*/?page
Disallow: /threads/*/reply
Disallow: /misc/
Disallow: /resources/authors/
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /posts/
Disallow: /login/
Disallow: /admin.php
Disallow: /?
Allow: /
Мой вариант блочит ботам все лишнее, делая акцент на страницы тем и ресурсов, ничего лишнего, да и на выдачу они всегда приоритет должны быть всегда. Учитывать им списки страниц, обновлений, рецензий и прочее лишний мусор, на выдаче никак нормально это не пропустят. Многие скажут, что не стоит на вебмастере обращать внимание на ошибку, что где-то нет мета-описания, в целом это мало на что влияет, однако по личному опыту убедился, что индексация без лишнего мусора идет быстрей и точно. Правда это лишь мой вариант эксперимента, ещё не раз думаю изменю, вырабатывая более эффективные варианты. Заморачиваться или нет, дело каждого. На оф.форум я бы не опирался в этом вопросе.

На офе например настройка такая:
Код:
User-agent: PetalBot
User-agent: AspiegelBot
User-agent: AhrefsBot
User-agent: SemrushBot
User-agent: DotBot
User-agent: MauiBot
User-agent: MJ12bot
Disallow: /community/

User-agent: Amazonbot
Disallow: /community/threads/*/reply

User-agent: *
Disallow: /community/whats-new/
Disallow: /community/account/
Disallow: /community/attachments/
Disallow: /community/goto/
Disallow: /community/posts/
Disallow: /community/login/
Disallow: /community/search/
Disallow: /community/admin.php
Allow: /

Sitemap: https://xenforo.com/community/sitemap.xml
Возникает вопрос, а есть ли смысл прописывать этих ботов, как у них на оф.форуме? Как считаете? И рекомендуется ли нам прописывать иначе на текущий момент?
Эти боты может никогда и не зайдут на твой сайт…
Их тысячи, десятки тысяч.
CloudFlare по умолчанию что-то сама блокирует из этих ботов.
Я забил
 
Для версии 2.3
1. Если у вас включена функция Enable embed code sharing, то, наверное, стоит запретить индексирование /api/oembed/, а то яндекс активно лазит, попали ли эти ссылки в индекс, будет понятно через пару дней.
2. Если включили поддержку IndexNow, то правилом хорошего тона будет разрешить индексацию /posts/, т.к. bing не принимает ссылки, ругаясь на запрет в robots.txt
 
3. /misc/style-variation - активно сканируется, часть из них уже 400 ошибкой, по версии сканера,
В коде главной <a href="/misc/style-variation" rel="nofollow", в коде самой страницы
<meta name="robots" content="noindex" />
Так, что только если робот задалбывать будет.
 
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу