Что такое robots.txt — термин и предназначение
Robots.txt – текстовый файл, включающий в себя правила для корректной работы внешних роботов. Например, что стоит сканировать, а что – нет. С помощью такого документа вы еще сможете ограничить доступ поискового робота к определенным папкам и страницам. Таким образом вы можете указать Google, куда можно заходить, а куда — не стоит, и ускорить сканирование страниц вашего сайта
Для обхода сайта поисковые роботы вычисляют заранее, есть ли файл robots. Если же его нет, то роботы считают открытой возможностью считывать сайт, и документы, которые на нем лежат.
SEO специалисты Elency подготовили для Вас подробную статью о том, как правильно настроить файл robots.txt, чтобы оптимизировать сайт
Что закрывает файл, и как владелец сайта может использовать файл robots.txt?
- Личные данные покупателей;
- Переписку;
- Покупки в корзине;
- Админку;
- Скрипты;
- Запросы поиска.
Закрывать лучше всё, что не понадобится покупателю, не готово к использованию или дублируется. А владельцы сайтов уже определяют, какой контент они хотят отдавать на сканирование, а какой – нет. Напомним, что настройка robots.txt относится к внутренней оптимизации сайта

Реакция Яндекса и Google на файл Robots
Когда вы даёте указания и направления для Яндекса, он не начинает индексировать ваши страницы.
Google работает по другому принципу: он сам принимает решение, что индексировать, а что нет. Если же вы закроете все страницы, то шанс попасть под раздачу гораздо ниже. Используйте для этого мета тэг robots. Но помните, как только на вашем сайте появится трафик и ссылки, поисковые роботы посчитают нужным включить индексацию.
Как настроить robots.txt?
Для этого вам понадобится один инструмент на выбор: Sublime, Notepad или Brackets. Также подойдет блокнот или любой другой текстовый редактор. Есть вариант прибегнуть к специальным генераторам файла, но особо они не выполняют работу, чем если вы сделаете её сами. Итак, давайте разбираться вместе
Что включает в себя настройка robots.txt
Внутри файла есть два параметра: User-agent и правило Disallow.
User-agent — указывает имя поискового робота, на который ориентирован сам документ. К примеру, это может быть GoogleBot или YandexBot. Вы вправе открыть доступ ко всем роботам. Для этого необходимо прописать так:
User-agent: *
Когда же вы выбираете конкретный бот, тогда это выглядит так:
User-agent: Googlebot
User-agent: Yandex
Disallow — как robots.txt запретить индексацию
На случай когда вам захочется заблокировать тот или иной робот, тогда запись ваша должна иметь такой вид:
User-agent: *
Disallow: /
Важно: он имеет смысл только на начальном этапе или в стадии разработки.
Чтобы не утонуть во всей информации и знать, как создать robots.txt, держите в памяти или на видном месте такие директивы disallow:
Для страницы: /primerpage.html;
Папок: /example-folder/;
Типа файлов: /*.pdf;
Определенный файл: /private-info.html.
Существует около 320 поисковых робота, но для меньшего использования, мы в Elency советуем присмотреться к следующим:
- Googlebot-Image – для картинок;
- YandexMetrika – бот Яндекс. Метрики;
- YandexImages – картинки в Яндексе;
- Googlebot-Mobile – когда используете мобильную версию;
- Mediapartners-Google – для работы с Adsense;
- YandexBlogs – всевозможные блоги и внутренние компоненты.
Allow не несет никакой ценности. Роботы читают всю информацию, потому разрешать им что-то делать необязательно.
Но когда вы хотите открыть доступ к конкретной папке, то стоит прописать всё так:
User-agent: *
Allow: /catalog
Disallow: /
Как проверить robots.txt
Тестировщик от Google — это незаменимая вещь, если вам нужно проверить, как всё работает в файле Роботс. Его вы запросто найдете в меню «Панель инструментов сайта», далее переходите в сканирование и инструмент проверки robots.txt.
Чем он хорош?
- Показывает, как выглядит robots.txt прямо сейчас;
- Внесение правок в файле;
- Просмотр старых версий;
- Контроль недействующих ссылок;
- Контроль появления ошибок.
Если робот по какой-либо причине не проводит индексации, тестировщик от Google выявит, как к этому причастен файл robots.txt. Для тщательной проверки достаточно ввести адрес ссылки и нажать на кнопку «Проверить».
Sitemap
Sitemap демонстрирует URL сайта, готовые к индексации, расположены в одном адресе. При работе робот проверяет наличие изменений и передает их в базу поисковых систем.
Вот так он будет выглядеть:
User-agent: *
Sitemap: http://blog.ua/sitemap1.xml
Sitemap: http://blog.ua/sitemap2.xml
Crawl-delay
Это инструмент, с помощью которого вы можете задать время для загрузки информации сайта. Особенно подходит, когда сервер плохо работает. Он не создает ложную нагрузку.
Clean-param – вычисляет повторяющийся контент и пытается наладить контакт с get-параметрами, чтобы вплоть не было таких же файлов. Другими словами, вы дадите возможность боту не проверять одно и то же, а сразу перейти к более важным вопросам.
Символы robots.txt
Ключевые – *, /, $, #.
Звездочка отвечает за чередование в файле и стоит после каждого правила.
Слэш или / – знак, что вы планируете закрыть от роботов. Если вы ставите его возле Disallow, то показываете, что желаете закрыть от сканирования весь сайт. А если добавляете две, тогда ставите запрет на проверку конкретной категории.
$ существует для закрытия строки.
Решетку используют для написания комментариев, адресованных веб-мастерам или пользователям. Поисковые системы их не считывают.
Чтобы Ваш онлайн бизнес и сайт не пострадал, важно правильно разобраться в robots.txt, как правильно его составить. Для этого агентство Elency рекомендует полностью погрузиться в вопрос и понять, для чего он создан. Файл запретит сканировать данные и облегчит внутреннюю работу сайта. Но чтобы не сделать ошибок, можно обратиться в профессионалам — SEO-агентству или студии, которые точно знают все о настройке файла robots и не только.
Консультация
Для записи на бесплатную консультации по вопросам привлечения клиентов, раскрутки бренда и seo продвижения, заполняйте форму или звоните по номеру в контактах сайта.