Когда речь заходит об индексировании Яндексом сайтов, не стоит забыть, что данный процесс не является линейным, и факторов, влияющих индексирование, гораздо больше, чем показывает Яндекс нам в открытых источниках.
Основные принципы индексирования Яндекс
Я думаю, что многие вебмастера уже познакомились с курсом Яндекс «» — 8 уроков о том, как Яндекс индексирует сайты, и как вебмастера могут помочь Яндексу узнать о новых документах.
Средства и инструкции Яндекс имеет хоть и общие рекомендации, но чаще всего именно ошибки в работе вебмастеров приводят к тому, что новые документы не попадают в индексацию.
Как сообщить о новом сайте Яндексу
Как показывает практика — ссылки являются самых эффективным способом сообщить основному роботу Яндекс о новом документе появившемся в сети. Именно ссылки являются средствами связи для всех документов в сети, именно с помощью ссылки, размещенной на популярном посещаемом и часто обновляемом ресурсе дадут возможность сообщить поисковому роботу о новом сайте.
Такой принцип в интернете назвали «индексирование с помощью быстроробота» — дополнительного робота основного поиска, помогающего при сборе и анализе данных до индексирования «большим поиском».
Характерным отличием быстроробота от основного поиска является его оценочные факторы. Контент, который добавляется с помощью быстроробота оценивается относительно некоторого ряда факторов ранжирования, основной же поиск применяет к документам общее количество факторов. Именно по этой причине попавшие в индекс страницы с помощью быстроророба очень часто вылетают из поиска до индексирования «большим» поиском. Несомненный же плюс быстроробота заключается в его скорости (от нескольких минут до часов), условия основного поиска же — 1 — 2 недели, хотя правильнее будет сказать 1 — 2 апдейта поисковой базы (в среднем 2 — 3 недели).
При отсутствии же подобных ссылок индексирование может затянутся на долгие месяцы. Для того, чтобы ускорить индексирование сайта основным поиском, Яндекс рекомендует использовать собственный сервис Яндекс Вебмастер.
И первое требование Яндекс — подтверждение сайта в Яндекс Вебмастер. Информация, показанная в видео Яндекс исчерпывающая, и подтвердить права действительно просто:
Вебмастер Яндекс имеет большой функционал и широкие возможности сбора, анализа и управления информации подтвержденного сайта. Вопрос индексирования затрагивает несколько инструментов.
Статус ответа сервера влияет на индексирование
Не создавайте помех со стороны сервера для индексирование — это правило, которое должно выполняться безоговорочно.
Из всех представленных ответов сервера в помощи Яндекс самые часто встречаемые коды:
- 200 — сервер доступен для пользователей и поисковых роботов
- 301 — страница изменила своё местонахождение и перенаправляет на новый url (пользователи попадают на новый адрес url, роботы переиндексируют url по новому адресу);
- 404 — страница больше не существует (пользователи не могут получить доступ к страницы, поисковые алгоритмы исключают страницу с ответом сервера 404);
- 403 — сервер недоступен (пользователи и роботы не могут получить доступ к документу).
Именно поэтому надёжный и качественный хостинг со стабильной работой так важен для индексации. Проверить ответ сервера в Яндекс можно с помощью . Обратите внимание, что у каждого сервиса Яндекс имеется свой собственный робот, но для каждого из них код ответа сервера должен быть «200».
Индексирование сайта — указание в robots.txt
Знакомый не понаслышке всем вебмастером файл robots.txt является обязательным (в отличие от Google) указанием поисковым роботам Яндекс какие документы индексировать, а какие техническими документами, дубликатами страниц или конфиденциальной информацией, которую индексировать не нужно.
Проверить robots.txt на правильность составленных указаний поможет ««, в котором для каждого url можно получить персональный результат.
Для закрытия страниц, которые содержат динамические параметры, не влияющие на содержание контента страницы, Яндекс рекомендует использовать директиву Clean-param. Так в WordPress ссылка формата ?replytocom=197 без проблем закрываются строчкой в robots.txt:
Disallow:
Clean-param: replytocom /
Яндекс так же указывает на то, что закрытие не всего контента, а лишь его части реализуется с помощью тега <noindex> — часть контента на странице взятая в тег <noindex> не будет учитываться при индексировании контента, но роботы будут переходить по ссылкам заключенным в <noindex>.
Не забывайте и о том, что страницы можно закрыть через мета теги:
<meta name="robots" content="noindex,nofollow">
Инструмент проверки sitemap.xml Яндекс
Рекомендации Яндекс сводятся к тому, что на любом сайте должна быть карта сайта в формате xml или же текстовом формате (страница на сайте с перечнем всех ссылок на страницы сайта).
Файл sitemap должен находится в главной директории, если содержит ссылки на все страницы сайта, или же в разделах директорий, если содержат ссылки на страницы определенных категорий.
Рекомендованными полями для файла sitemap.xml являются:
- дата последнего обновления страницы (элемент lastmod);
- частота изменения страницы (элемент changefreq);
- относительная значимость страницы (элемент priority).
Для того, чтобы Яндекс быстрее обработал ваш файл sitemap добавьте строчку в robots.txt с указанием вашего доменного имени:
Sitemap: http://site.ru/sitemap.xml
И в сервис вебмастер Яндекс в раздел «Файлы Sitemap»
К сожалению, Яндекс не поддерживает информацию в sitemap о изображениях и видео-файлах (в отличие Google), что затрудняет индексацию картинок и видео, загруженных на хостинг.
Бывает и так, что даже корректный и валидный файл sitemap не обрабатывается роботам, и причиной тому могут служить ошибки со стороны самой поисковой системы:
Как проверить индексацию страницы в Яндекс
Для проверки проиндексированных страниц в Яндекс используются специальные операторы поиска:
url:site.ru/page.php
К сожалению, такой способ не показывает статус индексации страницы, который можно узнать с помощью в вебмастере Яндекс.
Проиндексированная страница и добавленная в поиск даст результат:
Страница, известная поиску и добавленная в очередь на индексацию:
Адрес страницы неизвестен роботу:
Как Яндекс определяет зеркало сайта
Для того, чтобы один и тот же контент, доступный по разным url доменных имен, был склеен Яндексом, используется директива в файле robots.txt:
Host: site.ru
Которая определяет главный сайт и указывает на зеркала сайта, если таковые имеются. Так, например, сайт может быть доступен по адресу www.site.ru и site.ru, либо же сайт.рф, но с указанием описанных выше Яндекс будет обходить лишь доменное имя указанное вами и индексировать страницы лишь по определенным url.
В вебмастере Яндекс главное зеркало можно указать .
Подведём итог:
Для того, чтобы проиндексировать страницу или поставить страницу в очередь на индексирование, роботом достаточно пары минут.
Для того, чтобы страница попала в большой поиск через быстроробота необходимы ссылки с ресурсов и площадок, где обитает быстроробот.
Такими площадками могут выступать различные форумы с хорошей посещаемость и активностью пользователей:
Такие ссылки приведут к вам не только быстроробота, но и читателей.
Быстроробот не накладывает всех факторов ранжирования, а лишь учитывает качество контента и его релевантность, что является довольной частой причиной вылетания из индексации страниц.
Интересное наблюдение: страницы, попавшие в индекс через ссылки не используют «регистр имени сайта», указанный в вебмастере, но отображают релевантные запросы. Так моя статья «Корректная RSS лента WordPress» была проиндексирована быстророботом, но не обработана основным поиском.
И даже в том случае, когда вы испытываете затруднения в индексировании, не стоит расстраиваться или обращаться к платным сервисам ускорения индексации, ведь страницы проиндексируются роботом Яндекс в любом случае, для этого нужно лишь время.
Решил перейти на публикации совсем уж для детей? =)
Во-первых, попиарить то, что делает Яндекс. Новые изменения в работе поисковой системы мне принципиально нравятся, а такой формат подачи информации как тестирование даёт результативные плоды в обучении.
Во-вторых, как показывает практика, данная информация попадает в ряд профессиональных, и даже те, кто каждый день занимается сайтами или ведёт блог, не знают её :(
Хорошая статья для новичков. Единственное встречал в сети мнение о том, что тега noindex сейчас стоит остерегаться. Мол этот тег используют только сеошники, а с ними Яндекс как бы борется. Мол за этот тег на карандашик могут взять. Ну а так ли это ХЗ.
Не более, чем очередной seo-миф. Никогда Яндекс такого не утверждал, и уж тем более никак не борется с тегом noindex. Данный тег чаще всего используется для того, чтобы закрыть техническую информацию, чтобы она в свою очередь не разбавляла семантику контента страницы. Допустим, что под формой комментариев я создам небольшой блок о правилах комментирования, который никакой пользы для релевантности нести не может, тем более является повторяющейся информацией в каждой статье. Логично, что такой блок я закрою тегом noindex.
Ну а с различного рода манипуляциями, если этот тег используется для таких целей, Яндекс всегда боролся и будет продолжать бороться. Качество контента — это первое и определяющее правило Яндекс.
Возможно так оно и есть. Но я давно уже ни чего не ноиндексю :)
Максим, спасибо большое за пост. Я понимаю, что для некоторых эта информация давно понятна и кажется детской. Но мне как новоиспеченному блогеру она очень помогает обучаться. Я бы даже сказала больше, в данной статье для меня лично так и осталось непонятным по вашему описанию Как проверить индексацию страницы в Яндекс. Для таких как я нужно еще глубже разжевать: кликните сюда, введите это, а дальше как у вас — увидите то-то, расшифруете так-то.
Прошу прощения, забыл добавить ссылку, теперь есть «инструмента проверки url»
Спасибо Максим, теперь все поняла и смогла проверить индексацию страниц.
Все верно, эти принципы должен знать даже новичок в SEO. Это азы, без которых невозможно продвижение сайта.