|
|
|
|
|
|
Роботы поисковых систем при входе на сайт первым делом обращаются к
файлу robots.txt, чтобы получить инструкции к дальнейшему действию и
узнать, какие файлы и директории запрещены к индексированию. Поэтому
веб-мастеру крайне необходимо знать, как правильно написать этот файл,
так как ошибки в нём могут привести к очень плачевным последствиям. Ещё
раз повторимся и уточним, что файл robots.txt ничего не разрешает к
индексации, а только запрещает. И ещё один нюанс. Он не является
стопроцентным указанием для поисковых роботов. Скорее можно сказать,
что он является рекомендательным документом.
Файл robots.txt –
обыкновенный файл с расширением txt, который создают с помощью Блокнота
и располагают в корневой директории конкретного сайта и который
содержит инструкции по индексации для поисковых роботов. Инструкции
могут быть, как и общие, так и для конкретных роботов отдельные.
А теперь немного подробнее о файле robots.txt.
Основные правила при создании и загрузке файла robots.txt: - не путать название, то есть называть файл robots.txt, а не robot.txt и так далее. - писать название файла robots.txt обязательно в нижнем регистре, то есть robots.txt, а не Robots.txt и ROBOTS.TXT и так далее. - размещать файл robots.txt именно в корневой директории сайта, а не в каком другом месте.
Также
очень важно грамотное содержание файла robots.txt, поэтому расскажу
подробнее об этом моменте. Ошибки в содержании этого файла могут
привести к тому, что сайт или отдельные его директории или файлы не
будут проиндексированы.
Итак, из чего же состоит содержание файла robots.txt? Вот примерное его содержание:
User-agent: * Disallow: /adminka/ Disallow: /image/
Давайте разберём содержание этого файла. Первая
строка «User-agent: *». Звёздочка в инструкции User-agent обозначает,
что данная инструкция относится ко всем поисковым роботам. Если
инструкция предназначена для конкретного поискового робота, то
необходимо прописать его имя. Вторая и третья строка запрещают
индексацию директорий adminka и image. Обратите внимание, что каждая
запрещённая к индексации директория прописана в отдельной строке.
Совмещение их в одной строке является грубой ошибкой. Также нельзя
переносить строки в пределах одной инструкции.
Для поискового
робота Яндекса актуально также писать директиву Host. Эта директива
указывает роботу на основное зеркало этого сайта. В этой директиве
можно прописать адрес сайта либо с www, либо без www. Какая разница
спросите вы? Да никакой. Можно указывать и так, и так. Всё зависит
исключительно от вашего желания. Никаких ограничений и ущемлений для
вашего сайта не будет. Правильно написать директиву Host нужно так:
User-agent: Yandex Disallow: /adminka/ Host: www.site.ru
А теперь приведу конкретные примеры написания файла robots.txt для различных задач.
1. Запретить весь сайт к индексации всеми поисковыми роботами.
User-agent: * Disallow: /
2. Не запрещать весь сайт к индексации всеми поисковыми роботами.
User-agent: * Disallow:
3. Запретить весь сайт к индексации одним поисковым роботом (например, SeoBot).
User-agent: SeoBot Disallow: /
4.
Не запрещать весь сайт к индексации одному роботу (например, SeoBot) и
запретить к индексации всем остальным поисковым роботам.
User-agent: SeoBot Disallow:
User-agent: * Disallow: /
5. Запретить несколько директорий к индексации всеми поисковыми роботами.
User-agent: * Disallow: /directoria-1/ Disallow: /directoria-1/ Disallow: /hidedirectoria/
6. Запретить несколько файлов к индексации всеми поисковыми роботами.
User-agent: * Disallow: /hide.php Disallow: /secret.html
Какие же ошибки следует не допускать в написании содержимого файла robots.txt?
Вот основные правила написания содержимого файла robots.txt:
1. Писать содержимое файла нужно только в нижнем регистре. 2. В каждой инструкции Disallow указывать только одну директорию или один файл. 3. Не менять местами инструкцию Disallow и User-agent. 4.
Не оставлять пустой строку User-agent. Если инструкция относится ко
всем поисковым роботам, то писать звёздочку, а если к конкретному
поисковому роботу, то писать его имя. 5. В директиве Host (для Яндекса) адрес писать нужно без протокола http:// и без закрывающего слеша /. 6. Не нужно использовать символы подстановки в инструкции Disallow в виде звёздочки и прочих символов. 7. Стараться не писать комментарии к инструкциям в одной строке с инструкциями. 8.
Нельзя пропускать инструкцию Disallow. Если вы не собираетесь ничего
запрещать к индексации, то оставьте эту инструкцию пустой. 9. При запрещении к индексации директорий обязательно прописывать слеши. 10.
Самое главное правило – прежде чем залить файл robots.txt на сервер
сайта нужно сто раз его проверить и перепроверить во избежание
дальнейших недоразумений.
|
|
|
|
|
|
|