• Файл robots.txt

Дизайн-Студия Свой Сайт

Файл robots.txt


файл robots.txt для сайтаЯ полагаю, что те из Вас, кто решил создать собственный сайт своими силами, уже знают о многих тонкостях web-строительства. Но многие начинающие разработчики часто пренебрегают одним элементом, а именно файлом «robots.txt».

Между тем, создание сайтов требует к себе трепетного отношения, в котором нет места мелочам. Успех проекта напрямую зависит от грамотного построения всех составляющих, включая мелочи и детали. Итак, файл «robots.txt». Он используется для того, чтобы дать указания поисковым роботам, какие страницы Вашего сайта им можно индексировать, а какие нельзя.

Запрет роботам поисковых систем индексировать страницы может понадобиться, если, например, страницы содержат приватную информацию, или же эта страница заполнена ссылками, и вы не хотите делать их видимыми, то есть «обратными».

Файл «robots.txt» – это обычный текстовый документ, который может быть только один и размещается в корневом каталоге сайта (то есть иметь путь относительно имени сайта /robots.txt). Перед обращением к страницам Вашего сайта поисковые роботы сначала ищут файл «robots.txt», который запрещает им доступ к указанным Вами разделам ресурса. Форма записи в этом атрибуте чрезвычайно простая. Файл состоит из записей, разделенных пустыми строками.

Первая строка правила содержит информацию о сетевом роботе User-agent: и имя этого робота (если правило распространяется на всех роботов, то ставится звездочка *). Следующие строки содержат информацию об запрещенных или разрешенных для индексации файлов (Disallow:). Если имя файла отсутствует, то индексация разрешена. Каждой инструкции Disallow соответствует одна директория. Если нужно закрыть несколько директорий, то для каждой необходимо писать свою инструкцию Disallow.

Запрет индексации всего сервера

Для того, чтобы запретить индексацию всего сервера необходимо создать файл robots.txt., содержащий следующее:

User-agent: *

Disallow: /

В первой стоке определяется правило для всех роботов *, а во второй задается запрет на доступ от корневой директории и выше.

Запрет индексации для одного робота

User-agent: Googlebot

Disallow: /

Разрешение индексации всего сервера

Для того, чтобы разрешить индексацию всего сервера пишем:

User-agent: *

Disallow:

Аналогичного эффекта можно добиться, создав пустой файл robots.txt.

Разрешение индексации только для одного робота

User-agent: WebCrawler

Disallow:

User-agent: *

Disallow: /

Запрет индексации отдельных директорий

Для запрета индексации отдельных директорий они записываются по одной после директивы Disallow:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /private/

Запрет индексации отдельных файлов

Одним из способов является размещение всех необходимых для запрета файлов в отдельную директорию и установки на нее запрета индексации. Или же просто перечислить все запрещаемые файлы:

User-agent: *

Disallow: /~user/private.html

Disallow: /~user/emails.html

Disallow: /~user/contacts.html

Следует дополнить, что в запрете на индексацию нет ничего запретного, просто иногда на сайте содержится информация, не имеющая для поисковика никакой ценности. Поэтому, ограничив доступ к определенным файлам и папкам, мы тем самым уменьшаем время индексации сайта, оптимизируем работу поискового робота. Создание сайтов помогает зарабатывать деньги, А файл «robots.txt» помогает сайту. Этот элемент может показаться неважным и малозначимым, однако на деле он вносит очень существенный вклад в индексацию и продвижение сайта.

Отправить сообщение