Тратьте на рекламу вашего сайта меньше энергии

Укрощение пауков: улучшение индексации сайта и ранжирования за счет оптимизации работы с поисковыми роботами.

Оптимизация работы с поисковыми роботами является одним из факторов SEO, которой, кажется, не уделяется достаточного внимания. Многие из нас слышали об этом, но мы склонны принимать это как таинственное понятие, предполагая, что есть определенная квота, над которой мы не имеем практически никакого влияния. Или имеем? В любом случае, если есть то, что мы можем и должны оптимизировать для успеха SEO, это нужно делать.

В этом руководстве через основные связанные понятия краулинга мы рассмотрим, как поисковые системы назначают обход веб-сайтов, а также сформируем советы, которые помогут вам наилучшим образом организовать движение поисковых роботов на своем сайте.

поисковые роботы

Содержание

  1. Роботы: плохие и хорошие
  2. Понятие содержимого краулинга
  3. How-to: оптимизация работы с роботами

Роботы: плохие и хорошие

Веб-пауки или  роботы - это компьютерные программы, которые непрерывно «посещают» и «ползают» по веб-страницам, чтобы собрать определенную информацию о них.

В зависимости от цели посещения можно выделить следующие виды пауков:

  • Поисковые роботы,
  • Роботы веб-сервисов,
  • Хакерские роботы.

Пауки поисковой машины управляются с помощью поисковых систем, таких как Google, Яндекс, Yahoo или Bing. Такие пауки скачивают любую веб-страницу, которую они могут найти, и посылают ее в индекс поисковой системы.

Многие веб-сервисы, например SEO инструменты, сервисы покупок, путешествий и купонные сайты имеют собственных пауков. Например, WebMeUp имеет паука под названием Blexbot. Blexbot обходит до 15 миллиардов страниц ежедневно, чтобы собрать данные об обратных ссылках и послать эти данные в свой индекс.

Хакеры тоже разводить пауков. Они используют пауков для тестирования веб-сайтов от различных уязвимостей. После того, как они находят лазейки, они могут попытаться получить доступ к вашему веб-сайт или серверу.

Вы могли слышать, как люди говорят о хороших и плохих пауках. Любые пауки, которые направлены на сбор информации с незаконными целями, являются плохими. Все остальные хорошие.

Большинство пауков идентифицируют себя с помощью строки агента пользователя (User-agent) и предоставляют URL, где вы можете узнать больше о пауке, например:

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

В этой статье мы сосредоточимся на поисковых роботах, и как они обходят  веб-сайты.

Понятие содержимого краулинга

Содержимое краулинга – это количество раз, которое паук поисковой системы попадает на ваш сайт в течение определенного периода времени. Например, если Googlebot обычно заходит на сайт около 1000 раз в месяц, то можно сказать, что 1K – это ежемесячное содержимое обхода контента для Google. Имейте в виду, что не существует универсального ограничения по количеству и частоте этих обходов.

Почему этот показатель имеет значение?

Вполне логично, что вы должны отслеживать содержимое краулинга, так как хотите, чтобы Google обнаружил как можно больше важных страниц вашего сайта. Вы также хотите, чтобы он находил новое содержимое на вашем сайте быстро. Чем больше этот показатель для вашего сайта (и ваше умнее управление им), тем быстрее это произойдет.

Известно, что страницы, которые были недавно проиндексированы, как правило, получают больше видимости в результатах поиска. Другими словами, если страница не была отсканирована вовремя, она не будет хорошо ранжироваться.

Как определить содержимое краулинга

Эти данные вы можете получить из Google Search Console и инструментов Яндекс и Bing для веб-мастеров. Сканирование данных, представленное в этих инструментах, является очень общим, но достаточным для этого шага.

Рассмотрим на примере Google. Войдите в свой аккаунт Search Console и выберите Сканирование-> Статистика сканирования. Здесь вы увидите среднее количество просканированных страниц вашего сайта роботом Google в день.

Google Search Console

Из скриншота выше, вы можете видеть, что в среднем Google сканирует 174 страниц этого сайта в день. Из этого можно понять, что ежемесячное содержимое обхода контента составляет 174 * 30 = 5220.

Конечно, это число подвержено изменениям и колебаниям. Но это даст вам четкое представление о том, сколько страниц вашего сайта ожидаемо обойдет робот в определенный период времени.

Если вам нужна более подробная разбивка вашей статистики сканирования по отдельным страницам, вы должны проанализировать «следы пауков» в логах сервера. Расположение файлов логов  зависит от конфигурации сервера. Apache обычно хранит их в одном из этих местах:

/var/log/httpd/access_log

/var/log/apache2/access.log

/var/log/httpd-access.log

Если вы не знаете, как получить доступ к логам сервера, обратитесь за помощью к системному администратору или хостинг-провайдеру.

Сырые файлы журналов трудно читать и анализировать. Чтобы разобраться в них, вы должны иметь уровень джедая регулярных выражений и иметь специальные навыки.

Как определяется содержимое краулинга

Мы не знаем, как поисковые системы формируют размер краулинга для сайтов. Мэтт Каттс сказал следующее по этому вопросу:

"Количество страниц, которые мы сканируем, примерно пропорционально вашему PageRank".

Хотя PageRank больше публично не обновляется, можно по-прежнему с уверенностью предположить, что количество страниц для обхода контента сайта в значительной степени пропорционально числу обратных ссылок и важности сайта в глазах Google, - логично, что Google стремится хранить наиболее важные и свежие страницы в своем индексе.

Есть и противоположная теория об обходе контента пауками, которая вращается вокруг так называемого CrawlRank. Предполагается, что содержимое обхода контента сайта является более или менее постоянным в короткие промежутки времени с фиксированной глубиной сканирования. Это означает, что за счет внутренних ссылок сайта вы можете контролировать, как пауки поисковых систем сканируют некоторые из ваших страниц, чтобы в дальнейшем улучшить ранжирование этих страниц.

Нельзя недооцениваю важность внутренних ссылок, но все же поисковые системы сканируют некоторые страницы чаще, потому что они считают эти страницы более важными - а не наоборот.

Означает ли это, что единственный способ увеличить свой число обхода контента, это ставить ссылки? Если мы говорим обо всем сайте, то да: наращивайте количество ссылок и число обходов сканирования вашего сайта будет расти пропорционально. Но если взять отдельные страницы, вот где начинается самое интересное. Как вы узнаете ниже, вы можете тратить много ваших обходов страниц, даже не осознавая этого. При управлении содержимым умным способом, вы зачастую можете удвоить количество сканирований для отдельных страниц - но она по-прежнему будет пропорциональна количеству обратных ссылок для каждой страницы.

Больше обходов = лучшее ранжирование, помните?

How-to: оптимизация работы с роботами

Теперь, когда мы выяснили, что ползание пауков важно для индексации и ранжирования, настало время, чтобы сосредоточиться на самых лучших способах управления обходом контента для SEO.

Есть немало вещей, которые вы должны (или не должны) делать, чтобы поисковые пауки потребляли как можно больше страниц вашего сайта и делали это чаще. Ниже приведен список действий для обеспечения максимальной мощности вашего содержимого краулинга:

1. Убедитесь, что важные страницы сканируются, а содержание, которое не имеет значения, заблокировано для поиска.

Ваш .htaccess и robots.txt не должны блокировать важные страницы сайта, также боты должны быть в состоянии получить доступ к CSS и Javascript файлам. В то же время, вы можете и должны блокировать контент, который вы не хотите чтобы показывался в результатах поиска. Лучшими кандидатами для блокирования являются страницы с дублированным содержанием, динамически генерируемые URL, служебное содержимое сайта и так далее.

Имейте в виду, что пауки поисковых машин не всегда соблюдают инструкции, содержащиеся в файле robots.txt. Вы когда-нибудь видели фрагмент кода, как этот в Google?

robots

Хотя эта страница заблокирована в robots.txt, Google знает об этом. Он не кэширует ее, а создает стандартный фрагмент кода. Вот что говорит Google по этому вопросу:

В Robots.txt правило Disallow не гарантирует, что страница не будет появляться в результатах поиска: Google все еще может принять решение, основываясь на внешней информации, такой как входящие ссылки, что она имеет значение. Если вы хотите явным образом заблокировать страницу от индексации, вместо этой инструкции вы должны использовать мета-тег NoIndex или заголовок HTTP X-Robots-Tag. В этом случае вы не должны запрещать страницу в robots.txt, потому что страница должна сканироваться для того, чтобы робот смог увидеть тег.

Кроме того, если вы запретите к индексации большие участки вашего сайта путем блокирования  папки с помощью подстановочных инструкции, Googlebot можно считать, что вы сделали это по ошибке, и до сих пор сканирует несколько страниц из зоны ограниченного доступа.

Так что, если вы пытаетесь сохранить свое содержимое обхода контента и блокировать отдельные страницы, которые вы не считаете важными, используйте robots.txt. Но если вы не хотите, чтобы Google узнал о странице - используйте мета-теги.

2. Избегайте длинных цепочек редиректов

Если есть необоснованно большое количество 301 и 302 редиректов подряд на вашем сайте, поисковые пауки в какой-то момент перестанут следовать переадресации, и страница адресат не будет проиндексирована. Более того, каждое перенаправление URL - это пустая трата "единицы" вашего содержимого краулинга. Убедитесь, что вы используете перенаправляет не более чем два раза подряд, и только тогда, когда это абсолютно необходимо.

3. Управляйте параметрами URL

Популярные системы управления контентом порождают множество динамических URL-адресов, которые фактически приводят к одной и той же странице. По умолчанию, поисковой бот будет рассматривать эти URL-адреса в виде отдельных страниц. В результате вы можете тратить свое содержимое краулинга контента и, возможно, возникнут проблемы дублирования.

Если движок вашего сайта или CMS добавляет параметры к URL-адресам, которые не влияют на содержание страниц, убедитесь, что вы даете роботу Googlebot знать об этом, добавив эти параметры в вашем аккаунте Google Search Console, задав их в Сканирование-> Параметры URL.

4. Найдите и исправьте битые ссылки

Вы не хотите тратить свое содержимое краулинга на обход 404 страниц, не так ли? Найдите минутку, чтобы проверить ваш сайт на наличие битых ссылок и исправить те, которые вы можете.

5. Используйте RSS

RSS-каналы являются одними из главных посещаемых страниц пауками Google. Если какой-либо раздел на вашем сайте часто обновляется (блог, страница представления продукции, новый раздел), убедитесь, чтобы создан RSS-канал для него и он доступен Google роботу. Не забудьте сохранить RSS-каналы свободным от неканонических адресов, страниц, закрытых от индексации или 404 страниц.

6. Держите карту сайта чистой и обновленной

XML карты сайта важны для правильного обхода пауками. Они говорят поисковым машинам об организации вашего контента и дают поисковым роботам обнаружить новый контент быстрее. Ваш XML Sitemap должен регулярно обновляться и быть свободными от мусора (4xx страниц, неканонические страниц, URL, которые перенаправляют на другие страницы и страниц, которые блокируются от индексации).

Если у вас большой веб-сайт, который имеет много подразделов, полезно создать отдельный файл Sitemap для каждого подраздела. Это позволит сделать управление вашей картой сайта проще и позволяют быстро обнаружить участки веб-сайта, где возникают проблемы с индексацией. Например, вы можете иметь отдельный файл sitemap для доски объявлений, другой для блога, а еще один файл Sitemap, чтобы покрыть основные страницы сайта. Для сайтов электронной коммерции разумно создавать отдельные карты сайта для крупных товарных категорий.

Убедитесь, что все карты сайта являются доступными паукам. Вы можете включать все ссылки на Sitemaps в robots.txt и зарегистрировать их в Google Search Console.

7. Позаботьтесь о вашей структуре сайта и внутренних ссылках

Хотя внутренние ссылки не имеют прямой корреляции с вашим содержимым краулинга, структура сайта по-прежнему является важным фактором в принятии вашего содержания поисковыми роботами. Логическая древовидная структура сайта имеет много преимуществ - например, пользовательский фактор и количество времени, которое ваши посетители будут тратить на вашем сайте - и улучшение индексации, безусловно, один из них.

В целом, сохранять важные области вашего сайта не дальше, чем в 3 клика доступности с любой страницы - это хороший совет. Включите наиболее важные страницы и категории в меню сайта. Для более крупных сайтов, таких как блоги и сайты электронной коммерции, секции со связанными сообщениями / продуктами могут быть большим плюсом как для пользователей, так и для поисковых ботов.

 

Как вы можете видеть, SEO – это не все "ценность контента" и "авторитетность ссылок". Когда внешний вид вашего сайта выглядит отполированным, у вас может быть время, чтобы спуститься глубже и устроить охоту на паука - это обязательно сотворит чудеса в улучшении производительности вашего сайта и в результатах поиска.

Оригинал статьи - link-assistant.com

Статьи по теме