Файл robots.txt

Это у вас на xf 2.3.x такой robots ?
Нет, я на текущий момент сижу на xf 2.2 и такие настройки без проблем и для 2.3 подойдут. На продление лицензии пока лишних денег нет😁 Адрес форума моего можете посмотреть в моём профиле и посмотреть текущие настройки robots, тут я условно кинул общий шаблон по дефолту, что подойдёт для всех, даже самому ленивому, а дальше уже самостоятельно дорабатываем под свои нужды.
 
Последнее редактирование:
Sadorimatsu

Помоиму дефолтный роботс как у всех) Что там такого чего нет у других...
Единственное, что ты не поленился Clean-param прописать, обычно на него все забивают, так как не знакомы)
 
Единственное, что ты не поленился Clean-param прописать, обычно на него все забивают, так как не знакомы)
Я скока не смотрел у "всех", то нифига не у всех именно подобный набор. Как не странно, многие тупо забивают на это и зря. 😁
Clean-param штука непонятная, но очень полезная. Особенно, когда вы ловите ошибку с выдачей GET. Хочешь, не хочешь, а изучишь.😩
Это мои на сегодня данные по дублям, то что показывает 13.02.2025 это прошлые обходы, они будут добавляться по мере обновлений на свою дату:
Screen Shot 02-26-25 at 04.07 PM 001.JPG
На удивление, это всё оригинальные адреса, лишь мельком у меня ещё проскальзывают такие обозначения:
Код:
/mods/?order=download_count&direction=desc&page=4
/mods/?prefix_id[0]=49&page=1
/mods/492/updates?_debug=1
/mods/authors/1/?_debug=1
/mods/50/history?_debug=1
/tags/days-gone-oruzhie/?_debug=1
Пробую и от них избавится, прописав так:
Код:
Clean-param: _debug /mods/
Clean-param: _debug /tags/
Clean-param: prefix_id[0]
Clean-param: download_count&direction
Clean-param: desc&page
Я не до конца ещё в этих Clean-param разобрался, но это реально полезная вещь, когда у вас бардак в ссылках))
Можно конечно Clean-param прописывать по принципу Clean-param: _debug&prefix_id[0]&download_count&direction&desc&page, работать будет, но один хрен разберешь, что на что у тебя)))
 
Последнее редактирование:
Sadorimatsu

Clean-param я выдрессировал до идеала, когда владел интернет-магазинов на пол ляма товаров с куче фильтров. Хочешь не хочешь выучишь) Так, что xen в этом плане десткий лепет))
 
Sadorimatsu

Clean-param я выдрессировал до идеала, когда владел интернет-магазинов на пол ляма товаров с куче фильтров. Хочешь не хочешь выучишь) Так, что xen в этом плане десткий лепет))
Тогда вы может сможете подсказать, как правильно их настроить на XF?) Или приведите пример указанных запросов на дефолтный набор или может свой текущий. Интересно взглянуть, вероятно найду в чём и свой вариант доработать.
 
Сегодня обход прошёлся судя по всему, так что выше вариант показал скока на данный момент, а вот после базовых правил на Clean-param, статистика у меня после стала такой:
photo_2025-02-26_12-05-29.jpg1740585525668.png
До правок, у меня было так:
Это ещё с тем расчётом, что у меня были прописаны обычные запреты ботов, без Clean-param. У кого-то думаю статистика будет куда жёстче😆
photo_2025-02-17_08-38-25.jpg
Делайте выводы.
 
Последнее редактирование:
А много было дублей до этого и сколько времени примерно прошло когда на спад пошло ?
 
А много было дублей до этого и сколько времени примерно прошло когда на спад пошло ?
До текущего уровня, ждал почти пол месяца. То, что вы в ЛС мне показали, может затянутся на месяц, если не больше, так что наберитесь терпения.
 
Набираюсь, буду тоже пробовать варианты
 
Набираюсь, буду тоже пробовать варианты
Вот как выглядит учёт после обхода с Clean-param:
1740585978448.png
Если сверитесь с переменными в шаблонном варианте и сравните тут, то увидите, что всё работает.
Посмотреть это можете в Вебмастер - Индексирование - Страницы в поиске.
В общем, пробуйте и отслеживайте результат. 👍

Так же мой вариант помог избавиться от это ошибки:
Снимок экрана 2025-02-27 164722.png
 
Последнее редактирование:
Тогда вы может сможете подсказать, как правильно их настроить на XF?)
Я в первом сообщении своём написал, что у вас дефолтный роботс) Соответственно он плюс минус как у вас.
Единственный момент - я больше закрываю ИИ ботов что бы не шастали по сайту.

на одном из форумов у меня вот такой роботс:
Код:
User-agent: Yandex
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /posts/
Disallow: /login/
Disallow: /search/
Disallow: /admin.php
Disallow: /reputation/authors/*
Disallow: /*/about
Disallow: /*/unread
Disallow: /*/latest
Disallow: /*/?
Disallow: /?
Disallow: /index.php?*
Allow: /
Clean-param: s&pp&sort&order&daysprune&perpage&nojs&posted&tab&content&styleid&highlight

User-agent: *
Disallow: /whats-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /posts/
Disallow: /login/
Disallow: /search/
Disallow: /admin.php
Disallow: /reputation/authors/*
Disallow: /*/about
Disallow: /*/unread
Disallow: /*/latest
Disallow: /*/?
Disallow: /?
Disallow: /index.php?*
Allow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: ChatGenie
Disallow: /

User-agent: Jasper.ai
Disallow: /

User-agent: AnthropicBot
Disallow: /
User-agent: anthropic-ai
Disallow: /

User-agent: Claude
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /

User-Agent: FacebookBot

Disallow: /
User-agent: PiplBot

Disallow: /
User-agent: Amazonbot

Disallow: /
User-agent: OmgiliBot
Disallow: /
User-Agent: omgili
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: PetalBot
Disallow: /

User-agent: MoodleBot
Disallow: /

User-agent: magpie-crawler
Disallow: /

User-agent: ia_archiver
Disallow: /

User-Agent: YandexAdditional
Disallow: /

User-Agent: trendictionbot
Disallow: /
 
Последнее редактирование:
ФАКЕР, Как у вас на статистику отразилось в вебмастере? Удалось полностью избавится от ненужных дублей? С ботами вижу дотошно подошли, есть на то причины? Большую часть даже и не знаю.
 
Sadorimatsu
Код:
Удалось полностью избавится от ненужных дублей?
Конечно нет. Пользователи сами создают эти самые дубли, создавая темы) С этим ничего не поделать.
Код:
Как у вас на статистику отразилось в вебмастере?
На длительной дистанции форум всегда только рос.
Код:
С ботами вижу дотошно подошли, есть на то причины?
У меня:
1. уникальный контент. я не хочу что бы на нём обучались ИИ
2. яндекс нейро нагло ворует выдержки с сайта не ссылаясь на источник (так же поступают и многие другие нейронки)
3. не столь важно но всё таки: нейронки грузят сервак
5. trendictionbot - это вообще ядерный мусор, который может положить форум)) работает практически как стрессер 😁 если случаи когда форум лежал при его сканировании.

А так в целом на запреты в robots реагируют только "белые" боты, остальным плевать и их надо рубить в .htassecc
 
У меня висит куча дублей после перехода на 2.3, там поменялись правила транслитирации. Уже половину выбросило, если что
1740916680899.png

Clean-param: s&pp&sort&order&daysprune&perpage&nojs&posted&tab&content&styleid&highlight
смотрю часть, часть не от чистого xenforo?
 
Последнее редактирование:
akok, надо смотреть по статистике, что у вас чаще выбивает. Если это оригинальные страницы, то с дублями на них вы ничего не сделаете, если только лично не перекроете ботам их просмотр.
Если оригинальные страницы, например на ресурсах идут на обновление, обзоры, историю и рекомендованные, то можно просто их перекрыть так:
Код:
Disallow: /resources/categories/*/featured
Disallow: /resources/*/update/*/reactions
Disallow: /resources/*/updates
Disallow: /resources/*/reviews
Disallow: /resources/*/history
Чтобы у вас светились только строго общие разделы и страницы ресурсов. Если у вас там по темам или выдают плагины, типа ams, то тут надо смотреть индивидуально.
Общего шаблона, что я кидал тут, будет уже достаточно, остальное нужно вручную уже дописывать согласно уже вашим хотелкам.

По поводу Clean-param от ФАКЕР, то у него часть оригинальная, часть нет. По крайне мере sort, daysprune, nojs, highlight мне не попадалось, но я это сужу на 2.2. Если на 2.3 они есть, то вероятно и относятся, на текущий момент я это не проверю. Вам нужно самому это уже отследить в вебмастере и по примеру шаблона прописать недостающие.
 
Последнее редактирование:
  • Мне нравится
Реакции: akok
Там не совсем общий шаблон, там моды затесались. По статистике смотрел... там три варианта названия темы, старые, с багой от 2.3 и именные, после правки ошибки. В остальном посмотрю в своем полотенце, давно нужно обновить.
 
akok, вы поймите одно, если у вас URL по типу type_id, prefix_id, page-1,2,3,4 и т.д. То для таких вещей вам нужно прописывать Clean-param. Только он решает вопрос этих дублей. Нужно понять, что у вас сейчас выводится и по этим признакам дописать в свой Clean-param правило, которое запретит боту их учитывать. Прямые URL без ничего лишнего и дубли на них, то к сожалению без ручного вмешательства ничего не сделаешь. Тут уже нужен SEO плагин, либо на них просто забить, как я заметил работе вообще не мешают, главное избавиться от лишнего мусора. Я лично когда настройки провёл и избавился от хлама, индексация ощутимо выросла. А лишние, даже чистые URL можно просто запретить, если они не важны. Пробуйте и следите за статистикой и увидите результаты.
 
Последнее редактирование:
  • Мне нравится
Реакции: akok
@akok, вы поймите одно, если у вас URL по типу type_id, prefix_id, page-1,2,3,4 и т.д.
не дописал, по старым ссылкам 301 редирект, так, что мяч на стороне яндекса. До этого было дублей около 10%.
 
Если вы не хотите индексировать сообщения, то просто вырубите их:
кстати, для 2.3. это, возможно вредный совет. Если вклюен IndexNow, то ссылка передается и в виде /posts/id/

В общем с учетом всех правок и просмотра, что есть в индексе получил... яндекс как всегда требует больше всего внимания.

Код:
# robots.txt
User-agent: Bytespider
User-agent: ClaudeBot
Disallow: /

User-agent: Yandex

Clean-param: team&order&direction&do&dlfileid&act&do&id&prefix_id&p&s
Disallow: */filters$
Disallow: */reactions$
Disallow: */preview$
Disallow: */review$
Disallow: */download
Disallow: /members/
Disallow: /login/
Disallow: /admin.php
Disallow: /whats-new/
Disallow: /attachments/
Disallow: /lost-password/
Disallow: /account-confirmation/
Disallow: /*/rate
Disallow: /*?rating=
Disallow: /*?last_days=
Disallow: /cdn-cgi/

User-agent: *
Disallow: /login/
Disallow: /admin.php
Disallow: /whats-new/
Disallow: /lost-password/
Disallow: /attachments/
Disallow: /members/
Disallow: */reactions$
Disallow: /*/rate
Disallow: /cdn-cgi/

Sitemap: /sitemap.php
 
Последнее редактирование:
кстати, для 2.3. это, возможно вредный совет. Если вклюен IndexNow, то ссылка передается и в виде /posts/id/

В общем с учетом всех правок и просмотра, что есть в индексе получил... яндекс как всегда требует больше всего внимания.

Код:
# robots.txt
User-agent: Bytespider
User-agent: ClaudeBot
Disallow: /

User-agent: Yandex

Clean-param: team&order&direction&do&dlfileid&act&do&id&prefix_id&p&s
Disallow: */filters$
Disallow: */reactions$
Disallow: */preview$
Disallow: */review$
Disallow: */download
Disallow: /members/
Disallow: /login/
Disallow: /admin.php
Disallow: /whats-new/
Disallow: /attachments/
Disallow: /lost-password/
Disallow: /account-confirmation/
Disallow: /*/rate
Disallow: /*?rating=
Disallow: /*?last_days=
Disallow: /cdn-cgi/

User-agent: *
Disallow: /login/
Disallow: /admin.php
Disallow: /whats-new/
Disallow: /lost-password/
Disallow: /attachments/
Disallow: /members/
Disallow: */reactions$
Disallow: /*/rate
Disallow: /cdn-cgi/

Sitemap: /sitemap.php
Это для версии 2.3? Просто создать в корне файл robots.txt?
 
Последнее редактирование:
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу