Во всех поисковых системах можно выделить следующие компоненты:
Spider (Паук). Это программа наподобие браузера, основная задача которой – скачивать веб-страницы.
Crawler (Краулер, или «Путешествующий» паук). Цель этой программы – автоматически проходить по всем ссылкам, которые присутствуют на веб-странице.
Indexer (Индексатор). После того, как пауки завершат свою работу, скаченные ими веб-страницы анализирует данная программа.
Database (База данных). Разумеется, в ней хранятся скачанные и обработанные страницы.
Search engine results engine (русское название – Система выдачи результатов). Цель данной программы – извлекать из базы данных результат поиска.
Web server (веб-сервер). Благодаря ему возможно взаимодействие пользователя с остальными компонентами поисковой машины.
В деталях поисковые механизмы разных систем могут различаться (так, Spider, Crawler и Indexer можно объединить в одну программу, которая скачивает и анализирует страницы, а также проходит по ссылкам). И все же общие черты есть у всех поисковиков.
Spider работает аналогично пользовательскому браузеру – скачивает веб-страницы. Разница между ним и браузером в том, что браузер отображает текст, графику и т.п., а паук работает непосредственно с кодом html (этот код в «чистом» виде можно отобразить и в браузере с помощью опции «просмотр html-кода).
Crawler выделяет на странице все ссылки и определяет дальнейшую работу паука – идти ли ему дальше по ссылкам или ориентироваться на заданный заранее список адресов. В итоге задача краулера сводится к поиску новых документов, которых еще нет в поисковой базе.
Indexer разбирает страницу на элементы: заголовки, текстовое наполнение, различные структурные особенности, служебные теги и пр.
Database называется также индексом поисковой системы. В ней хранятся все данные, которые были скачаны и проанализированы.
Search Engine Results Engine отвечает за ранжирование веб-страниц. Именно от нее зависит, как будут отсортированы страницы в ответ на запрос пользователя. Критерии сортировки определяются алгоритмами ранжирования. Данный компонент для нас наиболее интересен, ведь именно с ним работает оптимизатор, когда стремится поднять позицию сайта в выдаче. В дальнейшем мы рассмотрим механизмы ранжирования более подробно.
Web server формирует выдачу результатов поиска в виде html-страницы. Обычно именно на нем присутствует страница с полем ввода, в которое пользователь вбивает свой запрос.
Постовой: профессиональное продвижение сайтов.
