Про сайт и robots.txt

От wolf | 31.05.2007 | раздел - Статьи |

Доигрался. Один из сайтов, нормально индексировался, все страници были в индексе. И вот. В один прекрасный момент – страници начали потихоньку пропадать из индекса, и за 2 апа от 250 страниц осталось только 40. В свете последних событий, был весьма озадачен.
Определились довольно быстро. Сайт продвигался с www , ссылки ставились тоже с www, cms работало на конфигурации с www. Но доблестный зеркальщик Я. определил главным сайт без www.
Соответственно отвалились все страници сайта из индекса. Пошутковал.
А если честно – надоели эти шутки Яндекса и неадекватность его работы.
Что будем делать. Скорее всего ничего. Ставить редиректы и прописывать host в robots.txt вроде как уже поздно, да и ждать когда бот по новой перезеркалит – не хочется. Просто переключил конфигурацию cms на работу без www. Посмотрим чем кончится.

Про редирект и robots.txt уже писал ранее. Да и сама директива host определяется только Яндексом, ))) как подпорка ему для корректировки работы его зеркальщика, что уже говорит о некорректной его работе.

Итак, чтобы было поменьше проблем в будущем, и вы уже определились, как будете представлять сайт с www или без, обязательно пропишите host в robots.txt. Яндекс не рекомендует проводить редирект до зазеркаливания сайта, что может привести к некорректной либо вообще отсутствии
индексации сайта.

Немного о robots.txt и host

-robots.txt — обычный файл текста, который находиться в корневой директории сайта.
-robots.txt – содержит инструкции для роботов ПС и других.
-На сайте может быть только один файл “/robots.txt”.
-В записи должна быть хотя бы одна инструкция “Disallow:”

Общий принцип – бот заходит на сайт , ищет robots.txt , считывает инструкции, исследует сайт , руководствуясь инструкциями.
Принцип общий, поэтому не все боты подчиняются.

Что писать в файл robots.txt Общий вид

User-agent: *
Disallow:

Для Яндекса добавьте host для сайта

User-agent: Yandex
Disallow:
Host: myhost.com
В общем читается инструкция как, разрешить всем роботам (Яндексу) индексировать весь сайт ( для Яндекса – основной сайт myhost.com) Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы хотите.
Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами

User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт

User-agent: *
Disallow:

Закрыть от индексации только несколько каталогов

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Запретить индексацию сайта только для одного робота

User-agent: Yandex
Disallow: /
НЕВЕРНО

User-agent: *
Host: www.myhost.com

- отсутствует Disallow:
User-agent: *
Disallow:

User-agent: Yandex
Disallow:
Host: myhost.com

как выяснилось такое расположение инструкций для Яндекса так же неверно, при таком расположении бот пробрасывает инструкции относящиеся к нему. Надо писать-

User-agent: Yandex
Disallow:
Host: myhost.com

User-agent: *
Disallow:

Регулярные выражения и символы подстановки так же нельзя использовать.
«Звездочка» (*) в инструкции User-agent означает «любой робот».
Инструкции вида «Disallow: *.gif» или «User-agent: Ya*” не
поддерживаются.

Каждая инструкция пишется на одной строке без переносов.
Для каждого файла или папки вписываемой в роботс должна быть своя инструкция ( коллективные не обрабатываются).

Подписка без комментария.
Уведомить меня о отзывах на e-mail

Отзывов 3 на “Про сайт и robots.txt”

  1. 1От errror 13 Янв 2008 | Ответить
  2. 2От wolf 13 Янв 2008 | Ответить

    Я тоже так думаю )))

  3. 3От Денис 23 Фев 2008 | Ответить

Извините, но коментирование запрещено.