Правильный файл robots.txt для WordPress

  • 24.02.2020 23:30
  • 0
  • 338

Каждый вебмастер рано или поздно сталкивается с необходимостью создания или редактирования файла robots.txt. Но многие специалисты, как оказывается, просто не понимают принципов работы файла, правил его составления. Львиная доля владельцев сайтов просто копируют первый понравившийся Роботс, и вставляют его себе на проект. А некоторые не знают, что это вообще такое, но понимают, что оно должно быть и у них на сайте.

Этой статьей я хочу научить всех, что такое robots.txt, зачем он нужен, как его составлять и какие знания для этого требуются. Здесь нет ничего сложного.

Что такое robots.txt

robots.txt для WP

Это – специальный файл, который дает рекомендации поисковым системам по обходу страниц сайта. Ключевое слово «рекомендации». Поисковик необязательно будет им следовать. Однако, если паук перейдет на страницу, которая закрыта в роботсе, и увидит, что контента на ней нет, или это – страница поиска или логина в админку, то он посчитает, что вебмастер прав и не станет добавлять ее в индекс. Если же робот увидит на странице текст, который может быть полезным для юзера, он может добавить такой документ в индекс. Но не всегда. В общем ориентироваться нужно на то, что robots.txt – не панацея.

Какие правила (директивы) используются в robots.txt

Для написания правильного файла для роботов требуется немного знаний. Основной навык – понимание всех правил (их около 10), которые будут вести поисковик по сайту. Итак, разберем основные директивы файла robots.txt:

  1. User-agent: — правило указывает имя поискового робота. Это может быть паук Гугла, Яндекса, Bing, Google Картинок, Яндекс Картинок и прочих поисковых роботов.
  2. Disallow: — одно из главных правил. Закрывает страницу или кластер (директория или страницы, в УРЛ которых есть определенные последовательности символов).
  3. Allow: — указывает роботу, что эту страницу или кластер нужно обязательно проиндексировать.
  4. Sitemap: указывает пусть к XML-карте сайта. Обязателен в любом robots.txt.
  5. Host: — уже необязательная директива. Раньше ее учитывали Яндекс и Mail.Ru, но в 2020 это правило утратило силу.
  6. Clean-Param: — специальное правило для Яндекса, которое позволяет не закрывать страницу, а очистить УРЛ от вставок типа utm_source&utm_medium&utm_campaign и проиндексировать страницу, не принимая ее за дубль. Эта директива очень полезна для интернет-магазинов. UTM-метки часто используются именно там. Указанное правило позволяет упростить написание путей индексации и сэкономить время.
  7. Crawl-Delay: — правило, позволяющее устанавливать частоту индексации страниц или разделов сайта. Полезно на больших проектах. Можно установить частоту обхода страниц таким образом, чтобы не создавать на сервер излишнюю нагрузку во время посещения сайта краулером поисковика.
  8. * — специальный символ, который обозначает любое содержимое. К примеру, если записать *?s=, то будут учитываться все страницы, УРЛ которых заканчивается на ?s=. Если мы напишем в правило ?s=*, то будут учтены документы с УРЛ, начинающимися на ?s=. В случае с *?s=* выборка будет сделана среди всех УРЛ, которые содержат ?s= не вначале или в конце, а по средине.

Вот и все директивы. С их помощью можно составить robots.txt для любого проекта, каким бы большим или специфичным он ни был. Кстати, каждую директиву можно задавать в отдельной секции, которая предназначена для определенного поисковика. Таким образом, для мало значимых роботов можно задать редкую индексацию, чтобы лишний раз не грузили сервер.

Как составлять robots.txt

Первое, с чего стоит начать, это – понять, какие страницы нужны в поиске, а какие – нет. Именно, исходя из этих соображений, составляются пути индексирования.

Целью продумывания является составление полного списка страниц сайта, выделение общих черт этих документов, написание директив в robots.txt. Иногда создать правильный роботс сразу невозможно из-за того, что сайт еще наполняется, или по другим причинам. В таком случае файл составляется по ходу работы над сайтом.

Помните главное правило: действовать нужно аккуратно. Лучше случайно оставить в поиске одну ненужную страницу, чем закрыть от индексации целую категорию.

К примеру, если написать в robots.txt Disallow: /01, то Вы закроете не только архивы за январь месяц, но и все остальные страницы, в УРЛ которых есть 01. А это может катастрофически сказаться на трафике.

Я долго думал, как правильно показать методику составления правильного robots.txt, и решил сделать некий шаблон, который можно доработать под свои нужды. Благо, теперь Вы знаете основные принципы работы с robots.txt.

Пример для основных поисковиков:

User-agent: *               # общие правила для роботов, кроме Яндекса и Google,

# т.к. для них правила ниже

Disallow: /cgi-bin          # папка на хостинге

Disallow: /?                # все параметры запроса на главной

Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет,

# правило можно удалить)

Disallow: *?s=              # поиск

Disallow: *&s=              # поиск

Disallow: /search/          # поиск

Disallow: /author/          # архив автора

Disallow: /users/           # архив авторов

Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой

# ссылки на статью

Disallow: */feed            # все фиды

Disallow: */rss             # rss фид

Disallow: */embed           # все встраивания

Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,

# правило можно удалить)

Disallow: /xmlrpc.php       # файл WordPress API

Disallow: *utm*=             # ссылки с utm-метками

Disallow: *openstat=        # ссылки с метками openstat

Allow: */uploads            # открываем папку с файлами uploads

 

User-agent: GoogleBot       # правила для Google (комментарии не дублирую)

Disallow: /cgi-bin

Disallow: /?

Disallow: /wp-

Disallow: /wp/

Disallow: *?s=

Disallow: *&s=

Disallow: /search/

Disallow: /author/

Disallow: /users/

Disallow: */trackback

Disallow: */feed

Disallow: */rss

Disallow: */embed

Disallow: */wlwmanifest.xml

Disallow: /xmlrpc.php

Disallow: *utm*=

Disallow: *openstat=

Allow: */uploads

Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ — для приоритета)

Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ — для приоритета)

Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.

Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

 

User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)

Disallow: /cgi-bin

Disallow: /?

Disallow: /wp-

Disallow: /wp/

Disallow: *?s=

Disallow: *&s=

Disallow: /search/

Disallow: /author/

Disallow: /users/

Disallow: */trackback

Disallow: */feed

Disallow: */rss

Disallow: */embed

Disallow: */wlwmanifest.xml

Disallow: /xmlrpc.php

Allow: */uploads

Allow: /*/*.js

Allow: /*/*.css

Allow: /wp-*.png

Allow: /wp-*.jpg

Allow: /wp-*.jpeg

Allow: /wp-*.gif

Allow: /wp-admin/admin-ajax.php

Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать

# от индексирования, а удалять параметры меток,

# Google такие правила не поддерживает

Clean-Param: openstat       # аналогично

 

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent

# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.

Sitemap: http://site.ru/sitemap.xml

Sitemap: http://site.ru/sitemap.xml.gz

Это общие правила, которые подойдут для любых сайтов на ВП. Но все равно, внимательно изучите, и не копируйте мой пример бездумно.

Там везде вставлены комментарии. Их тоже изучите, но себе на сайт их не добавляйте. Просто удалите и все. Если останутся вопросы – пишите в комментарии к статье, помогу.

Чего делать в robots.txt не нужно

  1. Закрывать комментарии к статьям. Пусть индексируются. Это – добавляет контента в статью, можно приспособится вставлять в отзывы ключевые слова и получать дополнительный трафик.
  2. Писать директиву Sitemap в каждой секции User-agent. Достаточно один раз написать Sitemap: в любом месте robots.txt.
  3. Закрывать пагинацию. Руководства поисковых систем точно описывают правила работы со страницами пагинации. Закрывать от индексации их не нужно. Достаточно на страницах с номерами 2 и более указать мета тег каноникл. К примеру, в документе с адресом site.ru/kazino/page-2 должен быть указан тег rel=”canonical” content=”site.ru/kazino/”. Таким образом мы говорим поисковому роботу, что это страница пагинации. Поисковик учтет это и сделает все такие документы одним целым.
  4. Закрывать папки wp-content, wp-includes, plugins, themes и В 2020 году поисковики сами отлично понимают, что этого в поиске не должно быть. А закрыв эти папки, Вы можете нарушить работу важных модулей и поисковик будет получать неправильную информацию. Следовательно, могут быть проблемы с ранжированием.
  5. Закрывать теги, категории. В зависимости от целей продвижения, часто категории и теги позволяют получить большую часть трафика в нише. К примеру, аффилейты казино дерутся в выдаче за каждого посетителя. Бездумно закрыв теги или категории, можно потерять много посетителей и клиентов.
  6. Crawl-Delay. Это – новомодное правило. Но не следует его использовать без надобности. Все хорошо в меру.

Итоги

Вот и все, что я хотел бы Вам рассказать о robots.txt. Всегда хорошо подумайте, как можно применить ту или иную страницу. Трафик лишним не бывает. Если это не системный документ, всегда можно найти для него место на сайте.

Комментарии (0)
Чтобы оставить комментарий, необходимо войти на сайт
Войти
Последние комментарии
Мостебт Партнерс предлагают очень хорошие ставки, так что даже небольшое количество трафика дает возможность зарабатывать. Я не гонюсь за огромными выплатами, 400 долларов в месяц вполне достаточно. Этого в первый месяц удалось достичь практически без усилий. Может буду чуть-чуть наращивать обороты, но пока и так все хорошо. Это как небольшой дополнительный заработок для меня. ДУмаю, что можно сделать и основным, если захотеть, так что советую всем.
Уже работал с разными партнерками, но считаю, что mostbet partners одна из самых адекватных в плане технической поддержки. она работает круглосуточно, и всегда готова помочь, Если какие-то проблемы, то сразу решаются все проблемы. Я обращался несколько раз, первый, когда настраивал все, а потом уже при первой выплате. Возникли вопросы по статистике, но все объяснили, показали, так что вопросов вообще не осталось.
На данный момент. среди множества ПП, не нашел для себя ни одной лучше, чем mostbet partners. Не знаю, с чем это связано, но условия здесь наиболее выгодные. Шейва не заметил, что очень радует. Холда даже на первых порах не было, деньги сразу выплачивали. Трафик в сфере гемблинга мне приносит довольно большой доход, который я теперь не хочу терять.
Пользователи