Файл robots.txt

Насколько я знаю Гугл не видит файл robots.txt, игнорирует его. И закрывать страницы нужно с помощью метатегов nofollow, noindex. На DLE я так делал, на XenForo не знаю как реализовать это
 
Так и есть, роботы давно игнорируют этот файл и писалось об этом не раз.
 
Неожиданно, страницы с так называемыми get-параметрами в индекс попали.
В роботс надо добавлять:

Disallow: *&highlight=
Disallow: *&nojs=
Disallow: *&order=

Может ещё какие параметры кто подскажет?



Так и есть, роботы давно игнорируют этот файл и писалось об этом не раз.
robots.txt работает до сих пор. Попробуйте какой-нибудь каталог, или целиком сайт в noindex прописать, улетит в момент.
 
А чем clean-param для яндекса не угодил? Google больше ориентируется на rel = "canonical".
 
А чем clean-param для яндекса не угодил? Google больше ориентируется на rel = "canonical".
Ну, вот clean-param не всегда работает нормально.
А canonical всё же как рекомендация, а не железное правило.
 
Вчера сделал так:

User-Agent: Yandex
Disallow:
Clean-param: prefix_id&direction=asc /forums/
Clean-param: user_id /search/

Есть комментарии замечания?)))
 
Попробуйте какой-нибудь каталог, или целиком сайт в noindex прописать, улетит в момент.
Это зависит от популярности страниц.
Некоторые страницы приходится выбивать только через мета теги.

Интересный момент на одном из проектов noindex стоял и в robots и в metа.
Человек поставил для большей убедительности ПС что не нужно индексировать эти страницы.
При этом, Гугл проиндексировал все запрещенные страницы, порядка 12000, и сам же ругался в ГВМ, что индексирует на смотря на блокировку.

1637069410073.png

И только после удаления директивы в robots начал удалять страницы из своего индекса.
 
Есть ли у кого нибудь свежий robots.txt для последней версии xenforo?

у меня по старинке
Код:
User-agent: *
Disallow: /find-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /posts/
Disallow: /login/
Disallow: /admin.php
Allow: /
 
Поисковые системы видят 2 дубля тем на моем форуме:
1. site.ru/тема1/
2. site.ru/тема1/latest

Правильно ли будет прописать в роботс.тхт нижеприведенную запись?
Код:
Disallow: */latest
 
Последнее редактирование:
При этом, Гугл проиндексировал все запрещенные страницы, порядка 12000, и сам же ругался в ГВМ, что индексирует на смотря на блокировку.

Яндекс поступает точно также. Он полностью игнорирует запрет на индексацию в head и полный запрет в robots.txt
Каково же было удивление когда всё это было включено а он продолжал всё индексировать...

Оказалось что Яндекс не обращает внимание на запрет в head, если есть разрешение как он считает в robots.txt
А в robots.txt в свою очередь он не понимает вот такой формат записи:

User-agent: Yandex
User-agent: YandexBot/3.0
User-agent: Mail.Ru
User-agent: Mail.RU_Bot/2.0
User-agent: Rambler
Disallow: /

Хотя эта запись является валидной и я её встречал не раз на крупных сайтах. Программисты Яндекса не в курсе просто...
Яндексу надо всё разжевать вот так -

User-agent: Yandex
Disallow: /
User-agent: YandexBot/3.0
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: Mail.RU_Bot/2.0
Disallow: /
User-agent: Rambler
Disallow: /
 
Поисковые системы видят 2 дубля тем на моем форуме:
1. site.ru/тема1/
2. site.ru/тема1/latest
Дублей быть не должно, так в html коде должен быть canonical
То есть, в обоих URL запись типа такого
<link rel="canonical" href="site.ru/тема1/" />

Возможно каноникалы определяются во второй фазе, поэтому нужно подождать когда ПС их поймут.
 
скажите разница есть если не указывать или указывать Sitemap robots.txt?
 
скажите разница есть если не указывать или указывать Sitemap robots.txt?
Вообще универсального ответа нет. Более того большинство современных ПС самостоятельно структурируют карту сайта во внутренней базе. Есть и минусы указания: парсеры, атаки по ссылкам из карты и прочее. Большинство не указывают карту в роботсе и предпочитают использовать роботс только для сокрытия отдельных страниц от индексирования.
 
Вообще универсального ответа нет.
Вот и я заметил что разницы особо то и нет! вот классная тема еще (не касается robots.txt) есть модуль DLE Google Indexing под систему dle. Очень хорошо ускоряет добавления новых статей! вот подобное б для форума сделать!
 
Давно юзаю в ручном режиме. Поищи google indexin api
 
Кто знает, что значат эти строки:
Clean-param: prefix_id[301]&prefix_id[367]&prefix_id[160]&prefix_id[371]&prefix_id[168]&prefix_id[174]&prefix_id[173]&prefix_id[176]&prefix_id[164]
Clean-param: &conten
В файле robots.txt?
 
немного страшилок.. дергануло меня выгрузить, все страницы которые болтаются в поиске яндекса, по результатам изучения родился вот такой вот франкештейн. Гарантировать, что верно, не буду, но "это" тоже имеет право на существование.
# robots.txt
User-agent: Bytespider
Disallow: /

User-agent: Yandex
Disallow: */rate$
Disallow: */filters$
Disallow: */reactions$
Disallow: */preview$
Disallow: */review$
Disallow: */insert-gif$
Disallow: */tag-auto-complete$
Disallow: */post-thread*
Disallow: /login/
Disallow: /admin.php
Disallow: /whats-new/
Disallow: /posts/
Disallow: /members/
Disallow: /goto/
Disallow: /search/
Disallow: /attachments/
Disallow: /lost-password/
Disallow: /forums/*/page*
Disallow: /account-confirmation/
Clean-param: order&direction
Clean-param: do&dlfileid
Clean-param: act&do&id
Clean-param: team

User-agent: *
Disallow: /login/
Disallow: /admin.php
Disallow: /whats-new/
Disallow: /posts/
Disallow: /members/
Disallow: /goto/
Disallow: /search/
Disallow: /attachments/
Disallow: /lost-password/
Disallow: */post-thread*

В общем не включайте обход по счетчикам.
 
Последнее редактирование:
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу