PROFWEB.ORG

WORDPRESS, SEO, SMO И ЗАРАБОТОК В ИНТЕРНЕТЕ

Что такое файл Robots.txt и как его правильно составить

правильный файл robots.txt

файл robots.txt

Привет всем. Ох, как же давно я не писал нормальных постов в свой блог. Причиной тому является то, что учебный год только начался, а я уже успел сдать два зачета в медицинском училище, и поэтому совершенно не было времени на написание постов. Времени хватало только на размещение обзоров для биржи ссылок Gogetlinks, а также на прогон блога по нескольким трастовым сайтам. Но сейчас не об этом:). Сегодня я решил написать пост о правильном составлении важного файла robots.txt. Давайте сначала розберемся с тем, что это за файл такой и зачем он вообще нужен.

Итак, Robots.txt – это текстовый файл который размещается в коренной дериктории сайта. Он предназначен для того, чтобы запрещать поисковым системам индексировать определенные страницы сайта. Также в этом файле можно прописать отдельные правила для каждого поисковика. Прежде чем проиндексировать информацию с Вашего сайта, поисковики проверяют его на наличие файла Robots.txt, поэтому лучше чтобы он был правильным, ведь если неправильно прописать некоторые строчки в данном файле, то это может вызвать попадание в индекс поисковых систем ненужных страниц, либо вообще к прекращению индексации сайта .

Поэтому, чтобы Вы не наделали много глупостей, я покажу свой robots.txt используемый на этом блоге:

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /page
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: ваш сайт
 
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /page
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Sitemap: http://ваш сайт/sitemap.xml

Как видите, я в файле роботс.тхт запретил для индексации не только файлы движка WordPress, но и метки (tag), категории (category), архивы (archive), а также указал адрес на карту блога, для ускорения его индексации. Сначала когда я только создал свой первый блог, я не знал о файле robots, и поэтому в индекс поисковиков попали страницы с дублированным контентом, что привело к вылету всех остальных страниц из индекса Яндекса. Но после письма Платонам (служба поддержки Яндекса) и закрытия всего дубля контента, страницы начали возвращаться в индекс. Поэтому при создании сайта, первым делом нужно также создать и разместить файл robots.txt, чтобы потом не было лишних проблем.

Ну а теперь давайте разберем поподробнее содержание robots.txt.

Строчка “User-agent:” указывает на то, для какого именно поисковика созданное правило индексации. Например, если вы хотите указать правило для всех поисковиков, то надо написать “User-agent: *”. Но стоит помнить, что для Яндекса нужно прописать правило индивидуально, то есть “User-agent: Yandex”, иначе он будет игнорировать правила индексации в файле Роботс. Также, чтобы Яндекс автоматически не склеил домен сайта с www и без www, нужно прописать строчку “Host: ваш сайт”.

Если Ваш сайт работает на WordPress, то Вы можете просто взять уже готовый мой файл robots.txt, при этом заменить адрес сайта на Ваш в строке “Host”, а также адрес на свою карту сайта в строке “Sitemap:”, после чего разместить этот файл в корне Вашего сайта. Возможно я не очень подробно описал файл Роботс, но думаю тем, у кого блог на wordpress, подойдет образец моего файла, так как в нем я пытался запретить все возможные дубли контента, чтобы потом не было каких-либо санкций со стороны поисковых систем.
PS: Сделать любимой девушке приятно, поможет , которая доставит всегда качественные и свежие цветы для любимой в любое время суток.

Популярные заметки блога:

2 Коммент.

  1. Здравствуйте, у меня такая проблема …

    Вот мой роботс

    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /webstat/
    Disallow: /feed/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Disallow: /category/*/*
    Disallow: /wp-content/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /comments

    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /webstat/
    Disallow: /feed/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Disallow: /category/*/*
    Disallow: /wp-content/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /comments
    Host: onlinezdorovje.ru
    Sitemap: _http://onlinezdorovje.ru/sitemap.xml.gz
    Sitemap: _http://onlinezdorovje.ru/sitemap.xml

    В моём блоге не идексируются страницы ни яднексом ни гуглом …

    Я отправил письмо в тех поддержку и мне ответили что не идексируются страницы потому что в файле роботс стоит запрет … Что мне в этом моём роботсе нужно убрать чтобы начало всё индексироваться, а то там мне не отвечают толком незнаю что и делать …

    • Здравствуйте! Думаю эти проблемы связаны с тем, что Вы запретили к индексации папку( Disallow: /wp-content/) целиком, поэтому попробуйте ее убрать или сделать так как у меня -
      Disallow: /wp-content/plugins
      Disallow: /wp-content/cache
      Disallow: /wp-content/themes
      После этого, страницы должны войти в индекс.

Трекбеки/Пинги

  1. - Что такое файл Robots.txt и как его правильно составить | http://t.co/hCN6r3F3 - Seo блог http://t.co/jst8KUgz

Ответить на Игорь Отмена ответа

Ваш email не будет опубликован. Обязательные поля отмечены *

*

Вы можете использовать это HTMLтеги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="" highlight="">