Как Яндекс индексирует сайты — основные принципы индексирования

как Яндекс индексирует сайты

Когда речь заходит об индексировании Яндексом сайтов, не стоит забыть, что данный процесс не является линейным, и факторов, влияющих индексирование, гораздо больше, чем показывает Яндекс нам в открытых источниках.

Основные принципы индексирования Яндекс

Я думаю, что многие вебмастера уже познакомились с курсом Яндекс «Основные принципы индексирования» — 8 уроков о том, как Яндекс индексирует сайты, и как вебмастера могут помочь Яндексу узнать о новых документах.

Средства и инструкции Яндекс имеет хоть и общие рекомендации, но чаще всего именно ошибки в работе вебмастеров приводят к тому, что новые документы не попадают в индексацию.

Как сообщить о новом сайте Яндексу

Как показывает практика — ссылки являются самых эффективным способом сообщить основному роботу Яндекс о новом документе появившемся в сети. Именно ссылки являются средствами связи для всех документов в сети, именно с помощью ссылки, размещенной на популярном посещаемом и часто обновляемом ресурсе дадут возможность сообщить поисковому роботу о новом сайте.

Такой принцип в интернете назвали «индексирование с помощью быстроробота» — дополнительного робота основного поиска, помогающего при сборе и анализе данных до индексирования «большим поиском».

Характерным отличием быстроробота от основного поиска является его оценочные факторы. Контент, который добавляется с помощью быстроробота оценивается относительно некоторого ряда факторов ранжирования, основной же поиск применяет к документам общее количество факторов. Именно по этой причине попавшие в индекс страницы с помощью быстроророба очень часто вылетают из поиска до индексирования «большим» поиском. Несомненный же плюс быстроробота заключается в его скорости (от нескольких минут до часов), условия основного поиска же — 1 — 2 недели, хотя правильнее будет сказать 1 — 2 апдейта поисковой базы (в среднем 2 — 3 недели).

При отсутствии же подобных ссылок индексирование может затянутся на долгие месяцы. Для того, чтобы ускорить индексирование сайта основным поиском, Яндекс рекомендует использовать собственный сервис Яндекс Вебмастер.

И первое требование Яндекс — подтверждение сайта в Яндекс Вебмастер. Информация, показанная в видео Яндекс исчерпывающая, и подтвердить права действительно просто:

Вебмастер Яндекс имеет большой функционал и широкие возможности сбора, анализа и управления информации подтвержденного сайта. Вопрос индексирования затрагивает несколько инструментов.

Статус ответа сервера влияет на индексирование

Не создавайте помех со стороны сервера для индексирование — это правило, которое должно выполняться безоговорочно.

Из всех представленных ответов сервера в помощи Яндекс самые часто встречаемые коды:

  • 200 — сервер доступен для пользователей и поисковых роботов
  • 301 — страница изменила своё местонахождение и перенаправляет на новый url (пользователи попадают на новый адрес url, роботы переиндексируют url по новому адресу);
  • 404 — страница больше не существует (пользователи не могут получить доступ к страницы, поисковые алгоритмы исключают страницу с ответом сервера 404);
  • 403 — сервер недоступен (пользователи и роботы не могут получить доступ к документу).

Именно поэтому надёжный и качественный хостинг со стабильной работой так важен для индексации. Проверить ответ сервера в Яндекс можно с помощью сервиса проверки ответа сервера. Обратите внимание, что у каждого сервиса Яндекс имеется свой собственный робот, но для каждого из них код ответа сервера должен быть «200».

Индексирование сайта — указание в robots.txt

Знакомый не понаслышке всем вебмастером файл robots.txt является обязательным (в отличие от Google) указанием поисковым роботам Яндекс какие документы индексировать, а какие техническими документами, дубликатами страниц или конфиденциальной информацией, которую индексировать не нужно.

Проверить robots.txt на правильность составленных указаний поможет «Анализатор robots.txt«, в котором для каждого url можно получить персональный результат.

Для закрытия страниц, которые содержат динамические параметры, не влияющие на содержание контента страницы, Яндекс рекомендует использовать директиву Clean-param. Так в WordPress ссылка формата ?replytocom=197 без проблем закрываются строчкой в robots.txt:

Disallow:
Clean-param: replytocom /

Яндекс так же указывает на то, что закрытие не всего контента, а лишь его части реализуется с помощью тега <noindex> — часть контента на странице взятая в тег <noindex> не будет учитываться при индексировании контента, но роботы будут переходить по ссылкам заключенным в <noindex>.

Не забывайте и о том, что страницы можно закрыть через мета теги:

<meta name="robots" content="noindex,nofollow">

Инструмент проверки sitemap.xml Яндекс

Рекомендации Яндекс сводятся к тому, что на любом сайте должна быть карта сайта в формате xml или же текстовом формате (страница на сайте с перечнем всех ссылок на страницы сайта).

Файл sitemap должен находится в главной директории, если содержит ссылки на все страницы сайта, или же в разделах директорий, если содержат ссылки на страницы определенных категорий.

Рекомендованными полями для файла sitemap.xml являются:

  1. дата последнего обновления страницы (элемент lastmod);
  2. частота изменения страницы (элемент changefreq);
  3. относительная значимость страницы (элемент priority).

Для того, чтобы Яндекс быстрее обработал ваш файл sitemap добавьте строчку в robots.txt с указанием вашего доменного имени:

Sitemap: http://site.ru/sitemap.xml

И в сервис вебмастер Яндекс в раздел «Файлы Sitemap»

К сожалению, Яндекс не поддерживает информацию в sitemap о изображениях и видео-файлах (в отличие Google), что затрудняет индексацию картинок и видео, загруженных на хостинг.

Бывает и так, что даже корректный и валидный файл sitemap не обрабатывается роботам, и причиной тому могут служить ошибки со стороны самой поисковой системы:

проблемы sitemap

Как проверить индексацию страницы в Яндекс

Для проверки проиндексированных страниц в Яндекс используются специальные операторы поиска:

url:site.ru/page.php

К сожалению, такой способ не показывает статус индексации страницы, который можно узнать с помощью инструмента проверки url в вебмастере Яндекс.

Проиндексированная страница и добавленная в поиск даст результат:
страница проиндексирована
Страница, известная поиску и добавленная в очередь на индексацию:

страница известна роботу

Адрес страницы неизвестен роботу:

адрес страницы неизвестен роботу

Как Яндекс определяет зеркало сайта

Для того, чтобы один и тот же контент, доступный по разным url доменных имен, был склеен Яндексом, используется директива в файле robots.txt:

Host: site.ru

Которая определяет главный сайт и указывает на зеркала сайта, если таковые имеются. Так, например, сайт может быть доступен по адресу www.site.ru и site.ru, либо же сайт.рф, но с указанием описанных выше Яндекс будет обходить лишь доменное имя указанное вами и индексировать страницы лишь по определенным url.

В вебмастере Яндекс главное зеркало можно указать тут.

Подведём итог:

Для того, чтобы проиндексировать страницу или поставить страницу в очередь на индексирование, роботом достаточно пары минут.

Для того, чтобы страница попала в большой поиск через быстроробота необходимы ссылки с ресурсов и площадок, где обитает быстроробот.

Такими площадками могут выступать различные форумы с хорошей посещаемость и активностью пользователей:

ссылки с быстророботом

Такие ссылки приведут к вам не только быстроробота, но и читателей.

Быстроробот не накладывает всех факторов ранжирования, а лишь учитывает качество контента и его релевантность, что является довольной частой причиной вылетания из индексации страниц.

Интересное наблюдение: страницы, попавшие в индекс через ссылки не используют «регистр имени сайта», указанный в вебмастере, но отображают релевантные запросы. Так моя статья «Корректная RSS лента WordPress» была проиндексирована быстророботом, но не обработана основным поиском.

страница, проиндексированная быстророботом

И даже в том случае, когда вы испытываете затруднения в индексировании, не стоит расстраиваться или обращаться к платным сервисам ускорения индексации, ведь страницы проиндексируются роботом Яндекс в любом случае, для этого нужно лишь время.

С уважением,
  1. s37dap42x

    Решил перейти на публикации совсем уж для детей? =)

    Ответить
    • Максим

      Во-первых, попиарить то, что делает Яндекс. Новые изменения в работе поисковой системы мне принципиально нравятся, а такой формат подачи информации как тестирование даёт результативные плоды в обучении.
      Во-вторых, как показывает практика, данная информация попадает в ряд профессиональных, и даже те, кто каждый день занимается сайтами или ведёт блог, не знают её :(

      Ответить
  2. MoneyMakerClub.Net

    Хорошая статья для новичков. Единственное встречал в сети мнение о том, что тега noindex сейчас стоит остерегаться. Мол этот тег используют только сеошники, а с ними Яндекс как бы борется. Мол за этот тег на карандашик могут взять. Ну а так ли это ХЗ.

    Ответить
    • Максим

      Не более, чем очередной seo-миф. Никогда Яндекс такого не утверждал, и уж тем более никак не борется с тегом noindex. Данный тег чаще всего используется для того, чтобы закрыть техническую информацию, чтобы она в свою очередь не разбавляла семантику контента страницы. Допустим, что под формой комментариев я создам небольшой блок о правилах комментирования, который никакой пользы для релевантности нести не может, тем более является повторяющейся информацией в каждой статье. Логично, что такой блок я закрою тегом noindex.
      Ну а с различного рода манипуляциями, если этот тег используется для таких целей, Яндекс всегда боролся и будет продолжать бороться. Качество контента — это первое и определяющее правило Яндекс.

      Ответить
    • MoneyMakerClub.Net

      Возможно так оно и есть. Но я давно уже ни чего не ноиндексю :)

      Ответить
  3. Viktoria

    Максим, спасибо большое за пост. Я понимаю, что для некоторых эта информация давно понятна и кажется детской. Но мне как новоиспеченному блогеру она очень помогает обучаться. Я бы даже сказала больше, в данной статье для меня лично так и осталось непонятным по вашему описанию Как проверить индексацию страницы в Яндекс. Для таких как я нужно еще глубже разжевать: кликните сюда, введите это, а дальше как у вас — увидите то-то, расшифруете так-то.

    Ответить
    • Максим

      Прошу прощения, забыл добавить ссылку, теперь есть «инструмента проверки url»

      Ответить
  4. Viktoria

    Спасибо Максим, теперь все поняла и смогла проверить индексацию страниц.

    Ответить
  5. ddv5

    Все верно, эти принципы должен знать даже новичок в SEO. Это азы, без которых невозможно продвижение сайта.

    Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *