Файл robots.txt

Hope, и тут и на оффе есть ЧПУ, а у автора нет. Если только find-new без слешей запрещать, а не с ними. Но проще ЧПУ настроить.
 
Ребят не знаю может кому поможет..
Месяц-два назад интересовался у тех поддержки яндекса, что с индексацией сайта не так?
Он глянул мой роботс и написал:
яндекс.PNG

p.s. надеюсь пригодится.
 
becdelbnik, Вот хороший robots.txt без ошибок в вебмастере яндекс.

Sitemap: домен.ru/sitemap.php
Подскажите, у меня на моём форуме при переходе по ссылке sitemap.php просто начинается загрузка файла, как к этому относится яндекс?
 
Так и должно быть, это карта форума.
 
  • Мне нравится
Реакции: Hope
Может быть кому-то будет интересно.
Для просмотра этого контента нам потребуется ваше согласие на установку файлов cookie третьих лиц.
Более подробную информацию можно найти на нашей странице cookie.
 
Парни, а почему тут(xenforo.info) в robots.txt не указано:
Host: xenForo.Info - Ваш путеводитель по миру xenForo
Да и как правильно писать host? c https или без(сайт только на нём и стоит)

__
Отвечу сам себе -
Директива Host используется для зеркал
 
Последнее редактирование:
Парни, а почему тут(xenforo.info) в robots.txt не указано:
Host: xenForo.Info - Ваш путеводитель по миру xenForo
Да и как правильно писать host? c https или без(сайт только на нём и стоит)

__
Отвечу сам себе -
Директива Host используется для зеркал

Надеюсь помог :-)


т.е. писать без

Неправильно:

User-agent: Yandex
Disallow: /cgi-bin
Host:
Правильно:
User-agent: Yandex
Disallow: /cgi-bin
Host:
 
Последнее редактирование:
Почитал на счет robots.txt это вообще сложная тема так как гугл рекомендует юзать вот такой:
Код:
User-agent: *
Disallow:
Мотивируя тем что бы у робота было полное представления о сайте. И кстати уже очень много топовых сайтов использует именно такой код.

Что касается Яндекса можно добавить еще
Код:
User-agent: *
Disallow:

Host: sait.com

Вообщем хотел сказать что идет тенденция на то что бы не скрывать от робота ничего.

На офф сайте xenforo вот такой стоит

Код:
User-agent: *
Disallow: /community/find-new/
Disallow: /community/account/
Disallow: /community/attachments/
Disallow: /community/goto/
Disallow: /community/posts/
Disallow: /community/login/
Disallow: /community/admin.php
Allow: /

Sitemap: https://xenforo.com/community/sitemap.php

Я рекомендую больше чем у них не закрывать разделов и это скорее сделано что бы просто не было дублирования контента.
 
Sweeney, контент можно закрыть не только в роботсе и не только на страницах сайта. Когда тысяч 20 страниц попадёт в индекс, посмотрю как запоёшь о:
Мотивируя тем что бы у робота было полное представления о сайте.

Да и не только в роботсе нужно закрывать. Если на странице будет ссылка ведущая на страницы закрытые в роботе без "nofollow" пс может и заиндексить. Он да же с роботсом может заиндексить.
 
Если на странице будет ссылка ведущая на страницы закрытые в роботе без "nofollow" пс может и заиндексить. Он да же с роботсом может заиндексить.

nofollow не закрывает от индексации ссылки вообще то. nofollow не передает вес страницы по ссылке где он установлен, но робот по ним переходит как по обычным.

Что бы закрыть страницу от индексации в head нужно писать
Код:
<meta name="robots" content="noindex,nofollow">
 
Последнее редактирование:
nofollow не закрывает от индексации ссылки вообще то. nofollow не передает вес страницы по ссылке где он установлен, но робот по ним переходит как по обычным.
Где я написал что nofollow закрывает страницу от индексации? Вы наверное не так поняли, все не нужные ссылки нужно обозначить данным тегом, если эти ссылки располагаются на нужных страницах.
 
Где я написал что nofollow закрывает страницу от индексации?
Значит излагаете мысли точнее что бы было понятно, тут идет обсуждение конкретно robots.txt, и закрытия разделов форума от индексации. То к чему было написано про nofollow?
 
Значит излагаете мысли точнее что бы было понятно, тут идет обсуждение конкретно robots.txt, и закрытия разделов форума от индексации. То к чему было написано про nofollow?
Относительно точнее? :) В первом посту написал же всё ясно, ну это неточно, вообще с пс ничего точно не может быть, ибо за всеми факторами ранжирования не уследить + алгоритмы. Я про то что, если ты закроешь страницу в роботсе, а с главной на неё будет ссылка. И как ты думаешь куда попадёт эта страница?
 
ты закроешь страницу в роботсе, а с главной на неё будет ссылка. И как ты думаешь куда попадёт эта страница?
Тут вопрос скорее в том зачем такой раздел вообще в robots.txt закрывать от индексации. Но в индекс точно не попадет если скрыт через Disallow в robots.txt, собственно затем он и придуман:-)
 
Sweeney, есть такие разделы, это скорее зависит от деятельности портала. Вот и я думаю, как мои 5к страниц попали, ну ведь закрывал-же в роботсе :-)
Тут скорее нужно больше факторов определяющие что страницы не нужны. Вот пс по одному фактору роботс не посчитал нужным не добавлять страницы и добавил :-)

Фиг знает, мне кажется чем больше ты покажешь ПС что эту страницу не нужно индексить тем больше шанс что он её не добавит. Хрен знает крч...
 
Последнее редактирование:
Положил robots.txt в корень форума, проверяю гуглем - нихера! говорит не обнаружен, поэтому в индекс уйдет весь контент. Когда в адресной строке набираю мой_форум/robots.txt нормально открывается. Почему гугл тогда не может найти?
 
26bezsexa, его вообще не было. И проверял именно на ошибки, а тут на тебе - не видит гугл его. sitemap на месте
 
Говорю-же! site.ru/robots.txt если открывает файл с директивами то всё ок, на остальное забей.
Тут просто больше предположить нечего, хз как он его может не видеть.
 
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу