Какая кс лучше индексируется поисковиками. Бортовой журнал

Какой контент индексируют поисковики?

Сейчас в Интернете сайтов больше, чем людей на Земле. Но определённая их часть не может быть нормально проиндексирована не только из-за технических проблем ( , плохой хостинг), но и из-за контента, размещённого на их страницах.

Идея данной статьи возникла после просмотра обучающего видео от Google (оно чуть ниже). Ну а само видео специалисты Гугла сделали в ответ на вопрос «My site doesn’t have much text. Is that a problem?» (На моём сайте мало текста. Проблема ли это?).

Вообще, вопрос логичный — сколько должно быть текста на странице , чтобы её индексировали Google, Yandex и все остальные поисковики? Данным вопросом я задавался в статье . Однозначного ответа нет (комментаторы тоже не знают:)).

Подобные вопросы часто возникают у вебмастеров. Мною замечено, например, что Гугл «уважает» страницы с объёмным текстовым содержанием. Но в видео представители Гугла открыто не говорят, что мало текста = плохое ранжирование , зато подробно рассказывают про индексацию Гуглом flash-сайтов.

Видео: что индексирует Google

Видео на английском, но если перевести, то:

Картинки и фото

Гугл всё ещё не понимает содержимое на картинках и фото, поэтому если на странице сайта есть лишь изображение, то нужно его хотя бы назвать логично . А лучше добавить хоть немного текста (данная тема особо актуальна для сайтов фотографов), а также прописать Alt и т.п. (прочитайте ). Это же всё относится и к Яндексу, и к другим поисковым системам.

Индексация Flash-сайтов

Дополнение:

Не стоит забывать, что поисковики хорошо «читают» .doc, .txt, .pdf, .rtf и прочие файлы. Поэтому, если у вас на сайте имеются подобные файлы, содержимое которых показывать в поиске не желательно, то надо запретить их в файле Robots.txt .

Многие владельцы и администраторы посещаемых форумов, построенных на популярном движке SMF (www.simplemachines.org) рано или поздно задумываются вопросом индексации своего форума поисковыми системами. Однако, довольно быстро они убеждаются в том, что установленный «из коробки» форум не индексируется, или индексируется неправильно. Что нужно сделать, чтобы контент форума был проиндексирован верно? Я расскажу об этом на примере Яндекса.

Одним из основных инструментов для отслеживания процесса индексации Яндексом является сервис Яндекс.Вебмастер . С помощью этого сервиса мы можем увидеть ошибки в процессе индексации форума. Если после установки нового форума мы добавим его в Яндекс.Вебмастер и дождемся индексации, то увидим, что практически все страницы форума в индекс не попали. Происходит это потому, что разработчики SMF, видимо утомившись объяснять пользователям тонкости взаимодействия форума и поисковых систем, просто добавили на все страницы тег:


Когда такой тег встречает поисковик, он не индексирует эту страницу. Исправим это, внеся изменения в файл index.template.php /Themes/default/index.template.php ). В зависимости от Вашего опыта указанную выше строку можно удалить или модифицировать таким образом:


В этом случае будут проиндексированы и текст и ссылки. Индексирование ссылок влияет на передачу веса вашей страницы (Google PR или ТИЦ у Яндекса) тому сайту, на который стоит ссылка.

Теперь, когда мы разрешили поисковикам собирать информацию для индекса с нашего форума, нужно сделать так, чтобы в индекс попали нужные страницы и не попали ненужные. Дело в том, что движок форума SMF, как и многих других, устроен таким образом, что одно и тоже сообщение можно прочитать множеством способов, и делать все эти способы доступными поисковикам не следует, так как нагрузка, создаваемая поисковиками при индексации может превысить лимиты, установленные на хостинге, где Вы размещаете форум, не говоря уже о том, что это просто бессмысленно. Для того, чтобы закрыть ненужные страницы на форуме, воспользуемся файлом robots.txt (рекомендую ознакомится с общим описанием этого файла на сайте robotstxt.org.ru , а также с описанием того, как Яндекс обрабатывает этот файл: http://help.yandex.ru/webmaster/?id=996567). Для форума, установленного в корень сайта этот файл будет выглядеть следующим образом:

User-agent: *
Disallow: /*.msg
Disallow: /*.new
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action

Вы можете добавить нужные Вам директивы в этот файл (указание на правильный Host, блоки, специфические для других поисковиков и т.п.). Не смотря на то, что по спецификации использование символов подстановки вроде «*» запрещено, абсолютное большинство поисковиков их интерпретируют верно, т.е. опасаться за правильность синтаксиса не нужно.

Чтобы поисковые системы правильно проиндексировали каждое сообщение на форуме сделаем следующее:

1. Уберем ссылку на на тему из сообщений внутри темы. Нужно внести изменения в файл
Display.template.php (для темы по-умолчанию он находится в /Themes/default/Display.template.php ). Нужно убрать ссылку и с названия темы и с картинки рядом с ней. Код, который нужно изменить находится после строки:

// Done with the information about the poster... on to the post itself.

2. Устанавливаем мод для форума, который позволит просматривать каждое сообщение отдельно: View Single Post .

После того, как доработаете свой форум приведенным выше способом, дождитесь, пока поисковые системы закончат его индексацию и убедитесь в отсутствии ошибок (используя, к примеру Яндекс.Вебмастер).

Для того, чтобы ссылки на Ваш форум присуствовали в поисковой выдаче сервиса «Яндекс.Поиск по блогам», используйте специальный плагин (официальная страница: http://nano.yandex.ru/project/yarss/ и версия для SMF 1.1.x: http://www.likhachev.net/projects/yarss/), который отдает RSS в нужном для этого сервиса формате. После установки этого плагина не забудьте добавить фид в сервис (если Вы это еще не сделали):

Который я периодически почитываю. Поэтому, собственно, и родился этот пост, в котором я постаралась в виде памятки отобразить все базовые рекомендации Яндекса, связанные с улучшением индексирования и ранжирования сайта в интернете. Сначала даны общие рекомендации, потом советы как лучше представить информацию на сайте. Далее рассматриваются случаи, когда сайт не индексируется или слабо индексируется поисковиком. И в заключении перечислены основные ошибки веб-мастеров при ведении сайта.

Основные принципы
Яндекс создает и развивает поиск, исходя из своего понимания, что нужно пользователям, и какая информация является ценной. Поэтому следование их рекомендациям, приведенным ниже, поможет в индексировании и лучшем ранжировании вашего сайта.

Создавайте сайты с оригинальным контентом или сервисом. Реклама не является той ценностью, ради которой пользователи приходят на сайт.

Думайте о пользователях, а не поисковых системах. Стали бы вы создавать сайт, страницу или ее элемент, если бы не существовало поисковиков? Приходят ли пользователи на ваш сайт или интернет-магазин не только из поисковых систем?

Тщательно продумайте - он должен помогать пользователям увидеть главную информацию, ради которой сайт создан.

Будьте честны. Привлечь пользователей по запросам, на которые ваш сайт не может достойно ответить, не значит удержать их. Думайте о том, что пользователь получит, придя на Ваш сайт.

Представление информации на сайте
При ранжировании учитываются не только формальное соответствие тексту запроса, полнота представленной информации и ее актуальность, но и то, как она оформлена и структурирована. Аккуратно оформленные и структурированные страницы наиболее привлекательны для пользователя.

Основная суть документа должна быть понятна уже на первом экране браузера.

Важно, чтобы информация на вашем сайте корректно отображалась во всех браузерах.

Если вы хотите запретить индексирование какой-то части текста на странице, используйте тег.

Когда сайт не индексируется
Если в этом разделе не описан какой-то прием, помогающий искусственно повлиять на ранжирование сайта в Яндексе, это не значит, что он приветствуется. Следуйте здравому смыслу и духу описанных выше принципов. Яндекс старается не индексировать или не ранжировать высоко в следующих случаях.

Сайты, копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.

Страницы и сайты, единственной целью которых является перенаправление пользователя на другой ресурс, автоматически («редирект») или добровольно.

Автоматически сгенерированный (бессмысленный) текст.

Сайты с каталогами (статей, программ, предприятий и т.п.), если они являются только агрегаторами контента, не создают тексты и описания самостоятельно и не предоставляют никакого уникального сервиса.

Страницы с невидимым или слабовидимым текстом или ссылками.

Сайты, отдающие разный контент пользователям и роботам поисковых систем («клоакинг»).

Сайты, предоставляющие товары или информацию по партнерским программам, но не представляющие никакой ценности для пользователя.

Сайты, использующие обманные техники (например, вредоносный код, опасные для посетителей сайта настройки CMS и серверов, вирусы в партнерских программах, вредоносные мобильные редиректы), перенаправляющие пользователей на сторонние ресурсы или меняющие окно результатов поиска на страницы других ресурсов при переходе из поисковых систем.

Сайты, пытающиеся повлиять на поисковую систему путем эмуляции действий пользователей.

Сайты, основным предназначением которых является агрессивная демонстрация рекламных материалов (в том числе popup, popunder, clickunder).

Сайты, содержащие списки поисковых запросов (многократное повторение и перечисление ключевых слов), предназначенные исключительно для обмана поисковой системы и манипулирования результатами ее работы, в том числе использование элементов страниц, скрывающих ключевые слова, например, посредством скроллинга или других технических приемов.

Группы сайтов одного владельца/компании, предоставляющие пользователю одни и те же товары или услуги, созданные с целью заполнения нескольких позиций в результатах поиска и сбора трафика.

Немодерируемые форумы, доски объявлений, содержащие большое количество ссылочного спама.

Сайты или группы сайтов, интенсивно ссылающиеся друг на друга («линкфармы»).

Страницы сайта с результатами поиска.

Распространенные ошибки
Поисковая система Яндекс стремится корректно индексировать и ранжировать все документы, которые ей доступны. Однако, к сожалению, все еще возможны ситуации, когда та или иная информация будет воспринята нашими роботами не так, как это предполагалось веб-мастерами.

. Навигация через скрипты. Наиболее распространенным способом размещения ссылки является HTML тег . Но существуют и другие способы навигации между страницами. Например, можно использовать технологии JavaScript или Flash. Робот Яндекса не переходит по таким ссылкам, поэтому следует дублировать ссылки, реализованные при помощи скриптов, обычными текстовыми ссылками.

. Использование Для корректного ранжирования документа не рекомендуется использовать тег

. Избыточное автоматическое перенаправление (редиректы). По возможности избегайте использования редиректов. Редирект может быть полезен только в том случае, если адреса страниц меняются по техническим причинам и необходимо перенаправить пользователя на новый адрес страницы.

. Адреса страниц. Каждая страница должна быть доступна по единственному и постоянному адресу. Желательно, чтобы адреса страниц сайта не содержали идентификаторы сессий, по возможности они также должны быть избавлены от списков cgi-параметров, заданных в явном виде.

. Клоакинг. Избегайте ситуаций, когда поисковый робот индексирует одно содержание страницы, а пользователь при обращении к этой странице получает другое. Например, в версиях сайта для разных регионов.

. Изображения вместо текста. Избегайте создания страниц, не содержащих текст. Если главная страница сайта выполнена в виде изображения, являющегося ссылкой на основную часть сайта, и сама не содержит текста, это может помешать ранжированию сайта. Это происходит из-за того, что большинство внешних ссылок, как правило, ведут на главную страницу сайта, и если это документ без текста, надежность определения содержания документа несколько уменьшается.

. Soft 404. Одна из распространенных ошибок заключается в замене сообщения об ошибке 404 (страница не найдена) для несуществующих страниц на страницу-заглушку, которая возвращается с кодом ответа 200 (ОК). В этом случае поисковая система считает, что страница с некорректным адресом существует, и не удаляет ее из своей базы. Это приводит к более медленному индексированию полезных страниц на сайте.

. Движок сайта. Следите за корректностью работы программного обеспечения сайта — ошибки в скриптах сайта могут привести к тому, что одни и те же страницы при переходе на них из разных разделов будут иметь разные адреса. Это может негативно отразиться на индексировании сайта. Кроме того, ошибки в «движках» могут быть использованы злоумышленниками (например, для размещения ссылки на вредоносный сайт).

Владельцу просто необходимо ждать момента, когда робот поисковой системы зайдет и проиндексирует страницу вашего сайта.

Как улучшить индексацию сайта в Яндекс и Google

Перед теми, кто создает сайт самостоятельно, встает, кажется, разумеющийся вопрос: как добавить свой ресурс в поисковую выдачу той или иной системы по заданному запросу? Ответ прост: владельцу просто необходимо ждать момента, когда робот поисковой системы зайдет и проиндексирует страницу вашего сайта.

Как только страницы вашего ресурса окажутся в индексе поисковика, они будут выводиться при поисковой выдаче.

Для большинства веб-мастеров эта проблема не является серьезной. Объемы их сайтов не превышают сотни страниц, и поисковый робот зачастую правильно индексирует содержимое. Тем не менее, стоит обратить внимание на несколько важных факторов при seo-оптимизации.

Обычно используют один из двух способов индексации:
Первый состоит в том, что владелец сам добавляет адрес сайта в специальное поле, которое отображается в панели веб-мастеров поисковой системы. В данном случае поисковая система оповещается о том, что появился новый еще не проиндексированный сайт. В порядке очереди робот заходит на каждый такой ресурс и индексирует.

Для правильной индексации достаточно указать только главную страницу, остальные робот найдет сам благодаря карте сайта. Карту сайта вы тоже загружаете самостоятельно. В интернете есть множество сайтов и программ, которые бесплатно генерируют вам карту в форматах.xml или.html

Второй способ заключается в том, что робот сам ищет ваш сайт. Вы поинтересуетесь: каким образом он делает это? Дело в том, что при индексации того или иного ресурса, робот проверяет ссылки размещенные на них. То есть если на ваш сайт уже есть ссылка на каком-либо ресурсе, проиндексированном, для примера Яндексом, то поисковой робот за короткое время сам посетит ваш ресурс и проиндексирует его. Опытные веб-мастеры полагают, что этот вариант гораздо более благоприятно сказывается на поисковой выдаче сайта. Для этого необходимо получить (или закупить) несколько ссылок и ждать прихода робота.

Конечно же, хочется как можно скорее увидеть свой сайт на страницах поисковика! Обычно робот индексирует страницы в сроки, не превышающие двух недель. Все зависит от загруженности поисковика. В плане индексации самый быстрый робот от Google. Через несколько часов после ручного ввода робот начинает его сканировать.

Робот, как и разработчики сайтов не любит сложные коды. Для наиболее удачной индексации я советую упростить его как можно сильнее и придерживаться следующих правил:

  1. Во-первых, доступ ко всем страницам должен быть не больше 3-х кликов, считая от главной страницы. В случае, когда это невозможно, создайте карту сайта. Она поможет роботу ориентироваться в ваших «джунглях».
  2. Во-вторых, будьте аккуратны при работе со скриптами. Поисковые роботы не умеют распознавать их. При использовании навигации, работающей на скриптах, обязательно дублируйте ссылки!
  3. В-третьих, не исключайте из внимания то, что поисковые роботы индексируют до 200 кб текста. Если вам важно, чтобы была проиндексирована вся страница, не делайте ее больше 100 кб.

Для поисковых роботов существует специальный файл, хранящийся в корне вашего хостинга. Он называется robots.txt . При помощи него можно управлять поисковым роботом, например, запретить или разрешить индексацию различных страниц.
В отличие от зарубежных поисковых роботов, российские понимают тег

< NOINDEX>

Который позволяет скрывать от робота отдельные части страницы. Для того чтобы полностью исключить возможность индексации, необходимо поместить данный тег в HEAD страницы.

Для того чтобы исключить из поисковой выдачи устаревшие ресурсы взамен свежим, поисковые системы осуществляют . Записи в базе данных постоянно обновляются. Не стоит бить тревогу если количество проиндексированных страниц внезапно изменилось.

Внимательно подходите к выбору хостинга. Если ваш сайт часто «падает», это ухудшает процесс его индексации. Робот просто не имеет доступа к ресурсу! Именно поэтому стоит трепетно подходить к выбору хостинга. Не стоит пренебрегать внешними ссылками. Они благотворно влияют на переиндексацию вашего сайта.

Проанализировав лог-файлы сервера, вы получите информацию о процессе индексации.

Интернет