Как поисковые системы индексируют веб-страницы

Когда поисковая система (ПС) индексирует информацию, она пытается смотреть глазами людей. Но ПС не может видеть так, как видим мы, вместо этого она читает лишь код.

Как ПС находит новое в интернете? Один из методов заключается в следовании по всем ссылкам, которые только есть. Если вы хотите быть уверены в том, что ваш новый материал найдут поисковые машины, потребуется сделать ссылку на него. Необходимо создать карту сайта xml (это перечисление адресов страниц сайта в специальном формате, который робот может легко считать). Sitemaps.org — удобный инструмент для создания карты, после создания которой её можно загрузить в поисковую систему, показывая этим, что вы что-то добавили на своём ресурсе.

Есть моменты, когда не желательно проводить индексацию, как правило, это тестовые или страницы для администратора. Чтобы контролировать то, как ПС сканирует сайт, можно установить правило в файле robots.txt и разместить его в корневом каталоге сайта. Robotstxt.org — полезный стандарт с подробным описанием, который поможет в составлении этого файла.

Как поисковые системы индексируют веб-страницыАдресная строка у каждой странички должна быть уникальной, чтобы быть уверенным в правильной индексации сайта, но практически это редко удаётся сделать. Как правило, такие трудности возникают благодаря параметрам URL, выражаемых в виде вспомогательной информации, добавленной в конце адреса.

Rel=»canonical» — это метатэг, определяющий предпочтительную страницу, его включают в код из-за того, то поисковики не знают, какие части адреса являются значимыми. Тэг canonical разъясняет поисковому роботу, что является главным для содержимого. Каноническая — это основная страница среди других с аналогичным содержимым.

Оповещение поисковиков с помощью ресурсов http://www.google.com/webmasters/ и http://www.webmaster.yandex.ru/, где задаются инструкции, какие параметры разрешено игнорировать, а какие недопустимо также является очередным способом для исключения подобных недоразумений. Одинаковое содержимое появляется дважды из-за неграмотного перемещения страницы. Одновременно в ПС могут оказаться как новый, так и старый адреса страницы; чтобы исключить дублирования, указывайте правила: 302 временный редирект и 301 — при замене навсегда.

На сайте не всегда публикуется только сухой текст, но может находиться и неспецифичный контент: отзыв о товаре, встроенное видео или кулинарный рецепт, которые не так просто опознать. Поисковики будут благодарны вам, если вы им поможете в опознании содержимого. Микроформат — это особый синтаксис, позволяющий ПС верно обработать информацию о специфичных типах контента на странице, Schema.org облегчает создание микроформата.

Как поисковые системы индексируют веб-страницыНа позиции сайта в поиске влияет веб-сервер, его главные качества — скорость и стабильность. Подумайте о смене хостинга, если наблюдаются частые падения сайта. Физическое нахождение сервера также может оказать влияние на скорость загрузки. Между тем, как пользователи используют сайт, поисковые машины проводят анализ, быстро ли подгружаются элементы. Данные у пользователей будет загружаться дольше чем всегда, если они базируются на другой стороне земного шара, что вряд ли поисковая машина одобрит. С финансовой точки зрения выгодно размещать сайт только на одном вэб-сервере, но скорость от этого, вероятно, пострадает.

В основном по географическим параметрам сервер размещают там, где будет располагаться основной контингент посетителей. Если гости сайта ожидаются со всей планеты, то нужно распределить запросы на нескольких серверах.