Crawlers (пауки)

Пауки (Crawlers) – программы, входящие в состав поисковиков. С их помощью перебирают интернет-страницы, чтобы занести информацию о них в базу поисковой системы. Они используются для анализа содержимого web-страницы, сохранения его в индекс и отправки на следующие страницы по специальным ссылкам.

Алгоритм работы «пауков»

В состав робота входит большое количество компьютеров, задача которых сводится к запросу и выбору страниц. Фактически, бот может одновременно запрашивать несколько тысяч web-страниц.

  1. Первым делом «паук» определяет массу сайта путем сбора информации, отражающей количество URL на сайте. Используя память предыдущего сеанса, он формирует список, который дополняется Sitemap исследуемой страницы.
  2. После этого информацию о конкретном web-сайте «паук» переносит в ячейки базы данных. Сюда же попадают данные о том, насколько пригодно добавление сайта в индекс.
  3. На последнем этапе перед тем, как уйти с сайта, «паук» осуществляет сбор ссылок с просмотренных страниц. Далее из них формируется список, подлежащий сканированию.

Инструменты для краулинга

Во многих поисковых системах предусмотрена возможность самостоятельного добавления web-страницы для краулинга. Это позволяет ускорить процесс индексирования сайта и заявить о его существовании. С этой же целью можно использовать системы веб-аналитики поисковиков (Яндес.Метрика, Google Analytics, Рейтинг@Mail.ru).

В своей работе «паукам» приходится сталкиваться с ограничениями, которые накладывают поисковые системы. В частности, они контролируют, на какую глубину сайта он может проникнуть или какой объем текста может просканировать. Существуют сервисы, вроде robots.txt, помощью которых можно установить запрет на сканирование страницы.

Металлические пауки на странице поиска Google

(Голосов: 3, Рейтинг: 1)
Поделитесь статьей

Пройти тестирование

Проверьте свои знания интернет-маркетинга

Бесплатные вебинары

Раскрываем полезные темы для интернет-маркетологов!

Возник вопрос? Задай!

Свяжитесь с нами, и мы расскажем о всех подробностях обучения

Подпишитесь на рассылку

Полезные статьи, дайджест и анонсы курсов. Без спама.