Файл robots.txt

Sadorimatsu · Четверг в 16:46

Raniyx написал(а):
Сократить ручной труд, но там тоже потратили что-то типа 450-600$ на разработку, мне детали не раскрывали, сказали что просто позволяет быстрее все собирать в файл, чем руками тратить по несколько часов. Это все вот новомодная мишура, было интересно просто, в курсе ли вы про это, да и подкинуть как идейку, на подумать.

Есть хоть уже рабочий шаблон подачи в таком файле? Потому что вызывает лишь вопросы актуальность этой задумки. Одно дело помочь продвигать в поиске, другое платные рекламные гиганты этого просто не дадут, яндекс точно.

Raniyx · Четверг в 16:56

Sadorimatsu написал(а):
Есть хоть уже рабочий шаблон подачи в таком файле? Потому что вызывает лишь вопросы актуальность этой задумки. Одно дело помочь продвигать в поиске, другое платные рекламные гиганты этого просто не дадут, яндекс точно.

Прям рабочих шаблонов под данную задумку на xenforo у меня нет, но судя по примерам они все однотипные:

Код:

# Заголовок (обычно название сайта)

Мета описание ресурса.

## Раздел раз
[Название темы](ссылка на тему)
[Название темы](ссылка на тему)
[Название темы](ссылка на тему)

## Раздел два
по аналогии..

upd: Соответственно на нужные разделы вешать нужные ссылки для контекста.

Как я уже учитывал ранее, аддон у коллег просто собирает возможные и популярные темы на основе счетчика просмотров и реакций на сообщениях, а админы уже в панели жмут кнопки на добавление или отмену в файл, что-то могут руками вписывать, ну и массово одной кнопкой применяют изменения. Насчет llms-full.txt очень мало наслышан.

Raniyx · Четверг в 17:12

Raniyx написал(а):
Код:

# Заголовок (обычно название сайта) Мета описание ресурса. ## Раздел раз [Название темы](ссылка на тему) [Название темы](ссылка на тему) [Название темы](ссылка на тему) ## Раздел два по аналогии..

upd: Соответственно на нужные разделы вешать нужные ссылки для контекста.

Спросил тех самых коллег, у них шаблон почти такой же который я написал, за исключением некоторых правок:

Код:

# Название сайта (кратко без лишних описаний)
> Краткое мета описание (обычно что указывают в страницах html)

## Раздел раз (если форум)
[Название темы](ссылка на тему)
[Название темы](ссылка на тему)
[Название темы](ссылка на тему)
...

## Раздел два (если ресурс)
[Название темы](ссылка на тему): Краткое описание из ресурса через api xfrm
...

llms-full.txt мы пока не трогаем, поскольку оттачиваем сейчас сбор тем. Хотим получить полную выгрузку данных за квартал.

Интересно однако.

Sadorimatsu · Четверг в 17:24

Raniyx, за шаблон благодарю, аналогично мне и дипсик выдал. Но из всего возникает один вопрос, как понять, что это будет работать? И работает ли она в данный момент вообще? Потому что я не вижу ничего, кроме прописания вручную мета заголовка и описание + ссылка на нужные страницы и узлы. По факту такие вещи сами боты и хватают на автомате, а тут ещё упрощаем работу ИИ ботам... как по мне, нефиг им упрощать и себе усложнять жизнь. Я лично не особо понимаю полезности этой задумки, слишком уж смотрится это сыро и колхозно. Учитывая, что и без всего этого базовая индексация хватает самые свежие записи, тут же задумка подраздразумевает продвигать активные страницы и продвигать их чаще в поиск, базовая индексация это тоже делает, но медленней. Заниматься этим вручную, это идиотизм, без плагина такую работу не продвинуть, не мудрено, что гиганты отмахнули, очень сырое исполнение. Если не прав, то поправьте.

Sadorimatsu · Сегодня в 15:09

Внёс важные изменения в список robots.txt, с учётом последних правок + изменения в ботах. Рекомендую обновить.
Помимо этого, протестировал довольно важную настройку в вебмастере, найти которую можно в - Индексирование - Настройка GET-параметров:

Что это и для чего?

Clean-param (в robots.txt) - это инструкция для робота, как склеивать страницы ДО того, как он их обработает. Он экономит ресурсы сервера и говорит роботу, как эффективно скачивать сайт, склеивая дубли на лету.
Настройка GET-параметров (в Вебмастере) - это ваше прямое указание Яндексу, какие параметры НЕ ВЛИЯЮТ на содержание страницы и их не нужно учитывать при индексации. Он следит за тем, чтобы в чистую поисковую выдачу не попал мусор, и помогает убрать оттуда старые дубли.

№	Параметр	Что делает
1	page	Номера страниц (пагинация)
2	prefix_id	Фильтры по категориям ресурсов
3	order	Сортировка
4	direction	Направление сортировки
5	content_type	Тип контента
6	user_id	ID пользователя
7	t	Временные метки
8	tab_id	Вкладки на странице
9	_debug	Отладочные параметры
10	desc	Описание (вероятно, для фильтрации)
11	download_count	Счетчик скачиваний
12	reject	Отклонение
13	accept	Принятие
14	update	Обновления

После заполнения, вам нужно поставить "Нет" в графе, "Учитывать параметр?".
Важное правило приоритета:
Если вдруг ваши настройки в Вебмастере и в robots.txt противоречат друг другу (например, в Вебмастере вы сказали "учитывать", а в robots.txt прописали Disallow), Яндекс выберет то правило, которое ЗАПРЕЩАЕТ индексацию. Т.е. приоритет у запрета, что логично.

Если правильно настроите эти параметры, то забудете про дубли, по крайне мере у себя наблюдаю, как они исключаются. Рекомендуют ждать от 1-2 недель, чтобы увидеть реальный результат.

Вы можете заполнить по дефолту, как тут у себя, лишним не будет. Однако, если есть свои параметры, то вносим так же.

У меня после тестирования, чутка прибавились дубли, это нормально. Обязательно запомните по поводу этой статистики. Даже когда нет дублей в URL, но есть дубли на разных URL по заголовкам и описания, то вас в это будут долбить постоянно, пока не измените. Если вам важны дубли таких заголовках, например у меня есть моды на разные игры и там одинаковые заголовки в их подразделах. От этого я никуда уйти не могу т.к. это удобства подачи, можно и забить хрен, на работу никак не скажется и на саму индексацию, но стата такая будет мозолить глаз. Если вам это мешает, изменяйте там, где ругается. Наша изначальная цель исключить дубли на сами URL, чтобы получить чистую индексацию важного нам контента.

На этом мне больше шлифовать настройки robots и индексацию некуда. Остается дождаться апреля и посмотреть, что будет по итогам.

Файл robots.txt

Sadorimatsu

Raniyx

Raniyx

Sadorimatsu

Sadorimatsu

Что это и для чего?​

Мы ценим вашу конфиденциальность

Что это и для чего?