Общие принципы работы поисковых систем

Во всех поисковых системах можно выделить следующие компоненты:

Spider (Паук). Это программа наподобие браузера, основная задача которой – скачивать веб-страницы.

Crawler (Краулер, или «Путешествующий» паук). Цель этой программы – автоматически проходить по всем ссылкам, которые присутствуют на веб-странице.

Indexer (Индексатор). После того, как пауки завершат свою работу, скаченные ими веб-страницы анализирует данная программа.

Database (База данных). Разумеется, в ней хранятся скачанные и обработанные страницы.

Search engine results engine (русское название – Система выдачи результатов). Цель данной программы – извлекать из базы данных результат поиска.

Web server (веб-сервер). Благодаря ему возможно взаимодействие пользователя с остальными компонентами поисковой машины.

В деталях поисковые механизмы разных систем могут различаться (так, Spider, Crawler и Indexer можно объединить в одну программу, которая скачивает и анализирует страницы, а также проходит по ссылкам). И все же общие черты есть у всех поисковиков.

Spider работает аналогично пользовательскому браузеру – скачивает веб-страницы. Разница между ним и браузером в том, что браузер отображает текст, графику и т.п., а паук работает непосредственно с кодом html (этот код в «чистом» виде можно отобразить и в браузере с помощью опции «просмотр html-кода).

Crawler выделяет на странице все ссылки и определяет дальнейшую работу паука – идти ли ему дальше по ссылкам или ориентироваться на заданный заранее список адресов. В итоге задача краулера сводится к поиску новых документов, которых еще нет в поисковой базе.

Indexer разбирает страницу на элементы: заголовки, текстовое наполнение, различные структурные особенности, служебные теги и пр.

Database называется также индексом поисковой системы. В ней хранятся все данные, которые были скачаны и проанализированы.

Search Engine Results Engine отвечает за ранжирование веб-страниц. Именно от нее зависит, как будут отсортированы страницы в ответ на запрос пользователя. Критерии сортировки определяются алгоритмами ранжирования. Данный компонент для нас наиболее интересен, ведь именно с ним работает оптимизатор, когда стремится поднять позицию сайта в выдаче. В дальнейшем мы рассмотрим механизмы ранжирования более подробно.

Web server формирует выдачу результатов поиска в виде html-страницы. Обычно именно на нем присутствует страница с полем ввода, в которое пользователь вбивает свой запрос.

Постовой: профессиональное продвижение сайтов.

Смотрите также