Не последнее место в продвижении сайта занимает файл robots.txt. Что же это за такой файл? Это простой текстовый файл ( с расширением *.txt), который обязательно должен называться robots (не robot). В этот текстовый файл записывается информация о индексация страниц сайта поисковыми роботами. Располагаться robots.txt должен в корневом каталоге сайта (именно в корневом, а не в какой-нибудь из папок этого каталога). Например сайт имеет URL mind.ru. В этом случае наш файл должен располагаться по адресу mind.ru/robots.txt. Неправильный вид записи: mind.ru/port/robots.txt, здесь файл находится в папке port и не будет индексироваться роботами вообще, поэтому они не получат никаких инструкций. Для каждого сайта должен быть свой текстовый файл robots.txt. Недопустимо использовать для одного сайта несколько файлов robots.txt. Вообще заходя на любой сайт, "правильный" (не ворующий контент робот, работающий на какую-либо поисковую систему) первым делом ищет файл robots.txt, в котором для него оставлены указания. Название файла robots.txt обязательно должно быть написано в нижнем регистре (маленькими буквами), поисковые роботы воспринимают только этот вид записи.
Первым делом в файле robots.txt пишется инструкция User-agent. Эта инструкция - обращение к поисковому роботу, например запись вида:
User-agent: Yandex
обозначает обращение к поисковым роботам от яндекса.
Запись
User-agent: *
Обозначает, что инструкция предназначена для поисковых роботов всех поисковых систем. С помощью знака (*) обращаются ко всем роботам сразу.
Основной инструкцией для все роботов в файле robots.txt является Disallow. Пременяется следующим образом:
User-agent: *
Disallow: /tmp/
Disallow: /sdm/
Обозначает эта запись то, что роботам всех поисковых систем запрещено индексировать все файлы в папках tmp и sdm. Инструкция Disallow для каждой папки должна начинаться с новой строки. Неправильный вид записи:
User-agent: *
Disallow: /tmp/ /sdm/
Запись вида:
User-agent: *
Disallow: /
Запрещает индексировать весь сайт роботам поисковых систем.
Запись вида:
User-agent: *
Disallow:
Разрешает индексировать весь сайт роботам поисковых систем, аналогом такой записи является пустой файл robots.txt.
Следующая запись:
User-agent: Googlebot
Disallow:
User-agent: Yandex
Disallow: /tmp/ User-agent: *
Disallow: /
Разрешает индексировать весь сайт роботу от google, запрещает роботам яндекса индексировать папку tmp, всем же остальным роботам запрещает индексировать весь сайт.
Индексацию можно запретить как и каталогов, так и отдельных файлов, например ниже запрещён к индексации файл badfile.html, который находится в папке tmp
User-agent: *
Disallow: /tmp/badfile.html
Заменить файл robots.txt можно с помощью мета-тега robots, но этот тег должен быть отдельным для каждой страницы.
Для начала определимся, что такое зеркала сайта. Зеркалом называется точная копия другого сайта, расположенная по другому адресу в интернете. Например mutivseti.ru является зеркалом сайта mutivseti.ru. Зеркала могут образовываться по различным причинам, от намеренного создания владельцем сайта зеркала до создания зеркала владельцем хостинга, на котором сайт расположен с целью сохранить данные клиента в целости и сохранности, а именно сайта.
Зачем склеивать зеркала? Ответ прост. Поисковые роботы индексируют все зеркала сайта и поэтому информация со всего сайта в целом индексируется более долгое время, а значит вся новая информация, размещённая на сайте будет дольше индексироваться и позже попадать в списки поисковой выдачи. Склейка зеркал осуществляется при помощи инструкции Host, расположенной в файле robots.txt. Действует данная инструкция только на поисковых роботов яндекса.
Пусть главное зеркало вашего сайта будет mysite.ru. Известно, что владелец хостинга сделает копию, которую расположит по адресу www.mysite.ru. В этом случае поисковые роботы яндекса, в 2 раза медленнее будут индексировать ваш сайт. Значит в поисковой выдаче яндекса каждая новая страница будет появляться в 2 раза медленнее, чем могла бы. А это уже потеря потенциальных посетителей. Надо ли вам это? Разумный ответ тут же вылезает в голове! Значит пишем в файле robots.txt запись следующего вида:
User-agent: *
Host: mysite.ru
Disallow:
Запись обозначает, что для роботов всех поисковых систем разрешена индексация всего сайта, главное зеркало которого расположено по адресу mysite.ru. Почему для всех, когда директива действует только для роботов яндекса? Ну может и какие-нибудь другие роботы используют эту директиву или начнут использовать.
В директиве Host не может быть более одного зеркала. Также в файле robots.txt не может быть более одной директивы Host, если их больше одной, то главным зеркалом будет считаться то, которое записано в самой верхней директиве. Рассмотрим неправильные примеры записи директивы Host:
User-agent: *
Host: mysite.ru www.mysite.ru
User-agent: *
Host: mysite.ru /www.mysite.ru
User-agent: *
Host: mysite.ru
Host: www.mysite.ru
Host: www.my-site.ru
Более подробно о директиве Host и о файле robots.txt можно узнать на яндексе, а именно здесь и на сайте robots.txt.