Внёс важные изменения
в список robots.txt, с учётом последних правок + изменения в ботах. Так же тут
расписал тут варианты настроек. Рекомендую обновить.
Помимо этого, протестировал довольно важную настройку в вебмастере, найти которую можно в -
Индексирование - Настройка GET-параметров:
Что это и для чего?
- Clean-param (в robots.txt) - это инструкция для робота, как склеивать страницы ДО того, как он их обработает. Он экономит ресурсы сервера и говорит роботу, как эффективно загружать сайт, склеивая дубли на лету. Обычно достаточно прописать это.
- Настройка GET-параметров (в Вебмастере) - это ваше прямое указание Яндексу, не тоже самое, что Clean-param, тут указываем какие параметры НЕ ВЛИЯЮТ на содержание страницы и их не нужно учитывать при индексации. Он следит за тем, чтобы в чистую поисковую выдачу не попал мусор, который вы уже прописали в robots.txt, и помогает убрать оттуда старые дубли. Иначе говоря он контролирует текущие URL и ДО и ПОСЛЕ. Помогает убрать мусор.
| № | Параметр | Что делает |
|---|
| 1 | page | Номера страниц (пагинация) |
| 2 | prefix_id | Фильтры по категориям ресурсов |
| 3 | order | Сортировка |
| 4 | direction | Направление сортировки |
| 5 | content_type | Тип контента |
| 6 | user_id | ID пользователя |
| 7 | t | Временные метки |
| 8 | tab_id | Вкладки на странице |
| 9 | _debug | Отладочные параметры |
| 10 | desc | Описание (вероятно, для фильтрации) |
| 11 | download_count | Счетчик скачиваний |
| 12 | reject | Отклонение |
| 13 | accept | Принятие |
| 14 | update | Обновления |
После заполнения, вам нужно поставить
"Нет" в графе,
"Учитывать параметр?".
Важное правило приоритета:
Если вдруг ваши настройки в Вебмастере и в robots.txt
противоречат друг другу (например, в Вебмастере вы указали "учитывать", а в robots.txt прописали Disallow), Яндекс выберет
то правило, которое ЗАПРЕЩАЕТ индексацию. Т.е. приоритет у запрета, что логично.
Если правильно настроите эти параметры, то забудете про дубли, по крайне мере у себя наблюдаю, как они исключаются. Рекомендуют ждать от 1-2 недель, чтобы увидеть реальный результат.
Вы можете заполнить по дефолту, как тут у себя, лишним не будет. Однако, если есть свои параметры, то вносим так же. Если наоборот надо учитывать переменные, то ставим "Да", но в XF это вряд ли будет нужно.
У меня после тестирования, чутка прибавились дубли, это нормально. Обязательно запомните по поводу этой статистики. Даже когда нет дублей в URL, но есть дубли на разных URL по заголовкам и описания, то вас это будут долбить постоянно, пока не измените. Если вам важны дубли таких заголовках, например у меня есть моды на разные игры и там одинаковые заголовки в их подразделах. От этого я никуда уйти не могу т.к. это удобства подачи, можно и забить хрен, на работу никак не скажется и на саму индексацию, но стата такая будет мозолить глаз. Если вам это мешает, изменяйте там, где показывает. Наша изначальная цель исключить дубли на уровне URL, чтобы получить чистую индексацию важного нам контента.
На этом мне больше шлифовать настройки robots и индексацию некуда. Остается дождаться апреля и посмотреть, что будет по итогам. Как бы не пришлось, что исправить.