В данной статье мы рассмотрим, как необходимо оптимизировать страницы, чтобы поисковые системы включили их в свой индекс, какие страницы не должны попадать в индекс поисковых систем и как их закрыть от индексации.

Индексация страниц сайта

Понятие «индексация» подразумевает процесс добавления в индекс поисковых систем содержания страниц.

Узнать информацию, которая известна поисковой системе Google о той или иной странице, позволяет оператор info:. Для этого достаточно задать в поисковой строке запрос следующего вида:

info:адрес интересующей страницы

Index Google Yandex 1

Найти страницы сайта, которые находятся в индексе поисковой системы Яндекс можно воспользовавшись оператором site:. С помощью данного оператора можно проверить наличие в индексе страниц определенного раздела сайта или конкретной страницы. Данный оператор работает и в поисковой системе Google.

Index Google Yandex 2

Получить информацию о статусе страницы в поисковой системе Яндекс можно воспользовавшись функционалом Яндекс.Вебмастер в разделе «Проверить URL».

Index Google Yandex 3

Чтобы роботы поисковых систем беспрепятственно проиндексировали страницы, важно провести внутреннюю оптимизацию сайта. Вот несколько советов:

  • страницы сайта должны содержать качественный и только уникальный контент;
  • для каждой страницы должны быть прописаны уникальные мета-теги (title и description);
  • не допускать ситуации, когда одна и та же страница доступна по нескольким URL-адресам;
  • динамические адреса важных страниц следует приводить к статическому виду;
  • создать карту сайта (sitemap.xml) со списком всех страниц, которую необходимо добавить в вебмастерах Google и Яндекс; при структурных изменениях на сайте периодически выполнять ее обновление.

Больше советов по внутренней оптимизации сайта можно посмотреть здесь.

Чтобы ускорить индексацию новых или переиндексацию ранее созданных страниц сайта, можно воспользоваться инструментами вебмастеров поисковых систем.

Для владельцев сайтов в Google Webmaster Tools такой функционал находится в разделе «Сканирование — Просмотреть как Googlebot». После получения ответа на запрос о содержании страницы и предоставляется возможность отправить ее в индекс. Предусмотрено два варианта отправки страницы на индексирование:

  • URL — при выборе данного варианта на индексацию будет отправлен только один указанный URL страницы;
  • URL и все связанные страницы — в таком случае на индексацию будет отправлен указанный URL и все страницы, на которые он ссылается.

Index Google Yandex 4

Отправить на индексацию URL сайта, доступ к инструментам вебмастеров которого не предоставлен, можно воспользовавшись публичной формой добавления страниц в индекс.

Сообщить о новом сайте поисковой системе Яндекс можно в разделе Сообщить о новом сайте.

Шеринг страниц в социальные сети

Внешние ссылки, размещенные на регулярно обновляющихся ресурсах, ускоряют индексацию страницы. Такими ресурсами выступают популярные социальные сети: Twitter, Facebook, ВКонтакте, Google+, Я.ру, кнопки которых будет полезно разместить на страницах сайта. Чтобы вызвать желание у пользователя поделиться информацией о странице в социальной сети, всегда важно уделять внимание качеству и полезности ее содержания.

Увидев размещенную ссылку, робот поисковых систем перейдет по ней и добавит страницу в свой индекс — индексация может пройти за сутки.

Шеринг страниц в социальных сетях учитывается поисковыми системами при ранжировании в качестве положительного фактора.

Закрываем страницы от индексации

Как правило, на сайтах существуют страницы, которые не содержат полезной информации для поисковых систем или содержат дублирующийся контент. Такими страницами могут быть:

  • служебные страницы;
  • страницы регистрации или входа в личный кабинет;
  • страницы корзины и оформления заказов;
  • страницы результатов поиска на сайте;
  • страницы пагинации;
  • страницы фильтрации и сортировок.

Такие страницы необходимо закрывать от индексации, поскольку они могут стать причиной плохих результатов ранжирования сайта в поисковой выдаче.

robots.txt

Файл robots.txt представляет собой инструкцию по индексированию страниц сайта для поисковых систем, к которой обращается поисковый робот при посещении сайта. В файле прописываем, какие из страниц запрещены для индексирования и для какой поисковой системы. Например, закрыть от индексации страницы поиска, которые принадлежат к каталогу search для всех поисковых систем можно следующим образом:

Среди минусов данного способа закрытия страниц от индексации является вероятность их попадания во второстепенный индекс поисковых систем. Проверить наличие таких страниц можно с помощью оператора «site:», где на последней странице результатов поиска выбираем значение «Показать скрытые результаты». Закрытые в robots.txt страницы, которые попали во второстепенный индекс, будут иметь отметку «Описание веб-страницы недоступно из-за ограничений в файле robots.txt».

Index Google Yandex 5

Чтобы удалить страницы из индекса, необходимо дополнительно воспользоваться инструментом Google Webmaster Tools — «Удалить URL-адреса» (раздел Индекс Google). Создать запрос на удаление из индекса можно как для отдельной страницы, так и всего каталога.

Index Google Yandex 6

Удалить страницу из базы Яндекса можно аналогично — в разделе инструментов вебмастеров Удалить URL.

Через файл robots.txt эффективно закрывать страницы, адреса которых являются статическими. Чтобы запретить индексацию динамических страниц лучше использовать мета-тег robots.

Мета-тег robots

Этот мета-тег используется для управления индексацией конкретной страницы. Атрибут content может иметь следующие значения:

  • index или noindex — разрешает или запрещает индексацию содержания страницы, соответственно;
  • follow или nofollow — разрешает или запрещает переходить по ссылкам указанным на странице, соответственно.

Например, заданный для страницы мета-тег

запрещает поисковым системам индексировать страницу, но разрешает переходить по указанным на ней ссылкам.

Атрибут rel=»canonical»

Для страниц, которые содержат похожий контент, можно указать в блоке head тег link с атрибутом rel=canonical, который позволяет установить каноническую (предпочтительную) страницу и сообщить об этом поисковой системе. Это могут быть страницы пагинации, фильтрации или сортировок. Таким образом, страницы с дублированным контентом не будут попадать в индекс. Например, для страницы сортировки

http://example/category/rod/?sort=name&direction=ASC

в блоке head необходимо указать адрес канонической страницы

Вместе с атрибутом rel=canonical можно прописать и мета-тег robots со значением noindex, follow.

Таким образом, работая и улучшая внутреннюю оптимизацию страниц сайта, можно оказывать влияние на процесс их индексирование поисковыми системами. Выявленные и закрытые от индексации страницы с низкокачественным содержанием позволяют избежать пессимизации сайта.