Главная » Как правильно составить

Составить правильный robots txt



Правильный robots.txt для сайта

Наличие на сайте правильного составленного robots.txt служит гарантией правильной индексации сайта поисковыми системами. Используя доступные в robots директивы (указания для поисковых роботов) мы можем разрешать и запрещать к индексированию любые страницы, разделы и даже весь сайт.

Директивы для составления правильного robots.txt

Основными директивами файла robots.txt являются:

Запрет на индексацию определенных страниц сайта можно устанавливать как для всех роботов сразу, так и для каждого в отдельности или выборочно.
Если указание относится только к определенному роботу необходимо указывать его правильное название.

Примеры директив в robots.txt

Всем роботам разрешено индексировать все:

Всем роботам запрещено индексировать сайт:

Запрещаем роботу Yandex индексировать каталог админки:

User-Agent: Yandex
Disallow: /admin/

Запрещаем роботу Google индексировать страницу контактов (http://site.ru/contacts.htm ):

User-Agent: Googlebot
Disallow: /contacts.htm

Запрещаем всем индексировать каталог админки и страницы вначале адреса которых есть слово admin (например: http://admin.php ):

User-Agent: *
Disallow: /admin

Как правильно составить robots.txt

В правильном robots.txt директивы для поисковых роботов должны быть расположены в четкой последовательности: от общих директив, касающихся всех, до частных - для отдельных поисковиков.
В случае создания отдельных директив для определенного робота, в указаниях даваемых ему нужно повторить общие запреты для индексирования.
Иначе в ситуации когда в общих директивах выставлен запрет, а в директиве конкретному боту не указан это воспринимается как разрешение к индексации.
Важно: роботы всегда следуют последним к ним относящимся указаниям.

Примеры:

User-Agent: Yandex
Disallow: /admin/

User-Agent: Googlebot
Disallow: /admin/
Disallow: /contacts.htm

User-Agent: Yandex
Disallow: /admin/
Disallow: /contacts.htm
Host: site.ru

Так-же можете почитать статью о том что запрещать к индексации поисковыми системами.

Редактируя свой robots.txt не забывайте проверять, работает ли указанная вами запрещающая директива на сервисах Google и Yandex .

Знаете ли вы, что безлимитным беспроводным мобильным WiFi интернетом со скоростью подключения до 10 Мбит/с, доступ к которому предоставляет компания коммуникаторы Lte можно пользоваться не только в любой точке города или сельской местности, входящей в зону покрытия wimax-антенн этих компаний, а даже в автомобиле на скорости 120 км/час.

Как составить правильный robots.txt? База начинающего блоггера!

Здравствуйте, дорогие читатели моего блога!

Сегодня хотелось бы посвятить пост такому важному файлу, как robots.txt.

Как составить правильный robots.txt и для чего он нужен, все эти подробности мы рассмотрим в ходе статьи.В принципе каждый начинающий блоггер создает грубую ошибку, когда просто забывает составить или составляет неправильный файл robots.txt.

Зачем нам нужен файл robots.txt?

Здесь все просто!Этот файл помогает нам избежать дублирования контента на вашем блоге и делает его уникальным. Да, объяснил, скажете вы!

Спокойствие, вот подробнее:

  1. он будет не уникальным
  2. Яндекс предоставит вам подарок, такой как наложение на ваш блог фильтра АГС

Так вот, чтобы убрать эти недоразумения нам нужно знать, как составить правильный robots.txt!

Правильно составленный файл robots.txt запрещает индексацию поисковыми системами тех разделов блога, которые приводят к дублированию контента.

Как составить правильный robots.txt

Сейчас попробую вам объяснить основные правила написания данного файла-директивы:

Эта директива определяет каким поисковым роботам следует выполнять команды, которые будут указаны(так обозначаются общие указания для всех роботов поисковых систем)

В нашем случае мы используем «Disallow»(запрещает индексацию указанных в ней элементов).«Allow», как вы догадались, разрешает индексацию.

Так задаются необходимые указания для Яндекса.

Надеюсь вроде все понятно и доступно?Вот смотрите пример:

Здесь, как видите мы разрешили индексирование всем поисковикам, а Яндексу запретили.Но если robots.txt оставить так, без особых указаний для поисковиков, то получается, что мы разрешили поисковикам индексировать весь блог.А Яндексу запретили индексирование всего ресурса, но нам так не нужно.Поэтому специально для вас я составил правильный файл robots.txt, который использую сам, вот смотрите:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /хмlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /page/

Здесь задаются указания специально для Яндекса:

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /хмlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /page/

Sitemap: http:// amplay.ru /sitemap.xml.gz
Sitemap: http:// amplay.ru /sitemap.xml

Здесь нужно будет поменять мой сайт amplay.ru на ваш! Ели вы новичок, то эта база знаний для вас и советую вам воспользоватся моим файлом robots.txt.

Как получить правильно составленный robots.txt?

Для этого вам нужно создать на своем компьютере обычный текстовый документ, скопировать содержимое на моем блоге и вставить в свой файл, после этого сохранить под именем robots.txt (не забудьте поменять amplay.ru на свой).

После создания файла, нужно отправить его в корень сайта через FTP клиент.

Кстати, забыл вам сказать:вы можете сами, постепенно, с развитием своего блога добавлять в этот список свои директивы для запрещения индексирования разных файлов(виджеты, страницы и т.д).В меня этот список тоже немного пополнился, но это база и она должна быть у всех!

Хочу вам показать свой старый и неправильный файл robots.txt:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: /trackback
Disallow: */feed
Disallow: /feed
Disallow: */comments
Disallow: /comments
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /*?s=
Sitemap: http://amplay.ru/sitemap.xml

Ну что посмотрели?Откуда он взялся уже не помню, может из вебмастера Google.Но знаю одно, что на блоге он был на протяжении долгого времени, что мешало нормальному и правильному развитию блога в поисковой системе Яндекса.

Уважаемые читатели, а какой файл robots используете вы?Давайте обсудим это в комментариях!Думаю, всем это пойдет на пользу и мне в том числе!

Понравилась данная статья?

Тогда подписывайтесь на мой блог и будьте в курсе всех новостей, информации куча, с нами интересно!

Каждому подписчику+активному читателю, комментатору моего блога-уникальная форма подписки в подарок.

Так что после подписки обращайтесь, видите с права по центру кнопочка от специального сервиса Redhelper. вот туда пишите или в комментариях к постам!

На сегодня все, удачи!

С уважением, Владислав Лемишко.

02.12. в 00:18

Здравствуйте, Влад!Очень надеюсь на Вашу поддержку в нелёгком деле настройки своего блога. Если честно, очень устала, блогу полтора года, а он ни тпру, ни ну#8230; Бьюсь как рыба#8230;Обратила внимание на Ваши комментарии на блоге Саши Борисова. Хочу последовать за Вами как ученик. Сегодня ставлю Ваш Robots.txt, создание и установку которого долго оттягивала. Надеюсь на успех. огромное вам спасибо за информацию

02.12. в 00:38

Данная статья пока что неактуальная! Мой роботс сможете просмотреть вот так: http://amplay.ru/robots.txt
Спасибо за доверие! =)

Источник: http://amplay.ru/blogovedenie/kak-sostavit-pravilnyj-robots-txtbaza-nachinayushhego-bloggera

Как составить правильный robots.txt

Совсем недавно я заглянул в Яндекс.Вебмастер и ужаснулся. Вообще в этой панели я редкий гость, в этот раз просто понадобилось добавить карту сайта. если быть точным несколько различных карт, которые мы обозрели ранее.

Так вот, как вы знаете, на главной панели вебмастера имеется сразу несколько показателей и график числа страниц исключенных роботом. Вот мне в глаза этот график и бросился #8212; на нем был изображен резкий скачок синей кривой, которая отвечает за исключение страниц намеренно запрещенных к индексации. Мне стало интересно, что же такого я там назапрещал (есть такое слово?:)).

Просмотрев все страницы с запрещенными к индексации URL я увидел среди них вполне нормальные посты, которые действительно были исключены из индекса благодаря имеющемуся у меня robots.txt .

Дальше больше. Решив за одно просмотреть проиндексированные URL, по мимо нормальных страниц я заметил всякую хрень, наподобие такой: /404-not-found-wordpress.html/feed или вот такой /404-not-found-wordpress.html/404-pravitelstvo. А затем я зашел в вебмастер Google#8230; Это пипец какой-то, но там примерно тоже самое.

В общем понял я одно #8212; нельзя полагаться на 100% на выложенные в сети примеры robots.txt для wordpress. как сделал это я. Каждый robots.txt необходимо настраивать под конкретный сайт. Этим и займемся.

Что такое robots.txt рассказывать смысла не имеет. В сети об этом уже и без меня достаточно наговорили. Ну если так, коротенько, то с помощью этого обычного текстового файла (расширение .txt) мы можем запретить поисковым роботам индексировать какие-либо разделы или файлы сайта.

До того, как я узрел сие недоразумение в блоге pervushin.com использовалось следующее содержимое:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

По большей части здесь все в порядке, но, как я уже говорил, у меня какого-то черта присутствуют ссылки такого вида: ссылка.html/crossposting. У меня в блоге используется ЧПУ с html окончанием и какой-либо слеш с приставками впринципе существовать не должны.

Также в указанном файле последние три строки запрещают у ссылок окончание /trackback, /feed, /comments и это правильно, но эти окончания идут также после .html. Поэтому вместо указанных выше 3-х строчек я использовал директиву Disallow: *.html/*. которая запрещает к индексации все подобные URL.

Продолжив изучать имеющиеся в индексе поисковиков страницы, заметил ссылки типа ссылка.js?иещечегототам. А она-то какого хрена в индексе делает? Запретил Disallow: */*.js* .

Вы используете поиск sphinx у себя в блоге? Это великолепный поиск, который дает релевантные запросу результаты. Но вот не задача, в индекс попали не известные мне страницы ссылка/sphinx/чтототутеще. Запретил Disallow: */sphinx/* .

А еще в индексе оказались дубли страниц без ЧПУ. Они выглядят так: ссылка/?p=xx. Опасность состоит в том, что поисковики могут выкинуть из индекса ссылки с ЧПУ или опустить их ниже в выдаче. В общем надо избавиться от таких ссылок. Делаем это строчкой Disallow: */?p* .

Ну и кроме того я запретил к индексации теги, фиды и все внешние ссылки, которые идут через /goto/. А также удалил все директивы предназначенные для яндекса, User-agent: * вполне достаточно.

Редактирование и проверка robots.txt в инструментах Яндекс и Google

В течении всего процесса редактирования файла я проверял его на корректность. Делается это в вебмастерских разделах поисковиков. У яндекса (webmaster.yandex.ru ) раздел находится в #171;Настройки индексирования- Анализ Robots.txt#187;. У google (google.com/webmasters ) раздел #171;Конфигурация сайта- Доступ для сканера#187;.

У обоих поисковиков имеется по паре окошек в которых можно редактировать сам файл и загружать различные URL адреса для проверки правильности составленного файла. Вот так этот раздел выглядит у Яндекса :

В верхнем окошке редактируем сам файл роботс.тхт, а в нижнее копируем все возможные URL адреса в блоге. Для проверки нажимаем кнопку #171;Проверить#187; и яндекс покажет нам, какие адреса разрешены к индексации, а какие запрещены:

Если все в порядке, значит можно смело заливать полученный файл на сервер. Но я на всякий случай проверил его и в Google. Принцип тот же #8212; в верхнем окошке содержимое robots.txt, в нижнем проверяемые URL адреса:

Нажимаем #171;Проверить#187; и изучаем результаты, все ли верно разрешено и запрещено:

После тщательной проверки у меня получился вот такой robots:

Источник: http://pervushin.com/correct-pravilnyi-robots-txt-wordpress.html

Источники: http://seodiz.ru/correct-robots-txt, http://amplay.ru/blogovedenie/kak-sostavit-pravilnyj-robots-txtbaza-nachinayushhego-bloggera, http://pervushin.com/correct-pravilnyi-robots-txt-wordpress.html





Комментариев пока нет!
Ваше имя *
Ваш Email *

Сумма цифр: код подтверждения



© Все права защищены 2017.