"ВОКРУГ САЙТА" www.vokrug-saita.ru

как создать сайт самостоятельно

Главная Рассылка Видеоуроки Автор сайта
Осторожно, мошенник!
Эта информация сохранит Вам деньги! >>>>>

Оптимизация сайта с помощью файла Robots.txt

Здесь мы разберёмся, как использовать файл Robots.txt.

Но, во-первых,

для чего нужен robots.txt?

Файл robots.txt указывает поисковым роботам поисковых систем (Yandex, Rambler, Google, AltaVista и пр.) какие файлы и папки следует запретить индексировать.

Где размещать файл robots.txt?

Файл Robots.txt обязательно помещают в корневой директории сайта.

Когда файл robots.txt НЕ нужен?

Если ваш сайт сравнительно маленький (10-30 страниц), файл robots.txt не нужен, так как все файлы такого сайта нужно индексировать.

Когда файл robots.txt создавать нужно?

Robots.txt необходим для больших динамических сайтов,  где множество специальных страниц, совершенно не предназначенных для опубликования.

Некоторые поисковики, например, Yandex, просто требуют прописывания не предназначенных к поиску директорий в файле robots.txt.

Что содержится в файле robots.txt?

Обычно файл robots.txt выглядит примерно так:

User-agent: *
Disallow: /foto.php
Disallow: /i22/
Disallow: /config/dat/

В строке User-agent указывается конкретный робот (Yandex, StackRambler ) или звёздочка (*), означающая всех роботов.

В строке Disallow прописываем путь к папке или конкретному файлу, запрещенному к индексации (путь отсчитывается от корневой папки сайта).

Директива Allow, наоборот, используется для разрешения доступа роботу к некоторым частям сайта или сайту целиком.

Важно! Пустые строки в файле между строкой User-agent и Disallow или Allow НЕ допускаются.

Директива Host , используется если сайт имеет зеркала. Тогда специальный робот-«зеркальщик» определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Для этого Вы указываете его в robots.txt, с помощью директивы Host, определив в качестве ее параметра имя главного зеркала.

Если, к примеру, www.my_site.ru - главное зеркало сайта, то robots.txt для всех сайтов из группы зеркал выглядит так:

User-Agent: *
Disallow: /forum
Disallow: /bloks
Host: www.my_site.ru

В файле  robots.txt можно задать время посещения поискового робота страниц сайта.

Делается это с помощью директивы Crawl-delay, задающей поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.

Важно! В целях совместимости с роботами, директиву Crawl-delay нужно добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив Disallow (Allow).

Яндекс поддерживает дробные значения Crawl-Delay, например, 0.5. Это не значит, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.

Пример 1.

User-agent: Yandex
Crawl-delay: 2 # задает таймаут в 2 секунды

Пример 2.

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймаут в 4.5 секунды

Как видим, все достаточно просто. Используя это на своих сайтах, вы поможете поисковому роботу правильно прочитать ваш Web-ресурс.

Автор: Андрей Чернобай

P. S. Подпишитесь на безплатную рассылку Вокруг Сайта и получайте на свой электронный адрес новые уроки по созданию сайта.

SmartResponder.ru
Ваше имя: *
Ваш e-mail: *

Оставьте свой отзыв о статье:



Введите цифровой код с картинки*:

"Вокруг Сайта"
подпишитесь и получайте на свой e-mail уроки, книги, статьи, скрипты, а также подарки и скидки на товары, продаваемые с сайта

SmartResponder.ru
Ваше имя: *
Ваш e-mail: *

СКАЧАТЬ
ВИДЕОКУРСЫ
СЕЙЧАС

Как записывать видео с экрана монитора и добавлять их на страницы своего сайта? - Скачать >>>


Готовы ли Вы расстаться с убеждением, что создать сайт на PHP - сложно? - Скачать >>>


Как правильно выбрать домен и хостинг? - Скачать >>>


Видеоуроки по HTML. Скачать >>>

PHP-песочница
Подписаться письмом


Карта
rss
Карта