25 февраля 2003 г. Google получила патент на новый алгоритм ранжирования веб-страниц – LocalRank. Смысл этого алгоритма – ранжирование страниц не по глобальной ссылочной популярности, а по цитируемости только среди тематической группы страниц.
На практике LocalRank не используется (по крайней мере, не в таком виде, как описано в патенте). Тем не менее в патенте описано несколько интересных моментов, знать о которых будет полезно каждому оптимизатору. Практически все поисковики учитывают тематическую связь между ссылающейся страницей и той, на которую ведет ссылка. Скорее всего, такой учет регулируется другими алгоритмами, однако в патенте описывается, как можно организовать подобный контроль.
В этом разделе изложена теоретическая информация, поэтому не стоит воспринимать ее как практическое руководство.
Итак, центральная идея LocalRank отражена в трех пунктах:
1. С помощью определенного алгоритма выбирается некоторое количество релевантных поисковому запросу документов (пусть это количество будет обозначено N). Все они уже были отсортированы по какому-то критерию (PageRank, оценка релевантности и т.п.). Данный критерий (точнее, его численное выражение) обозначим OldScore.
2. Любая страниц из N вновь подвергается процедуре ранжирования, после чего приобретает новый ранг (назовем его LocalScore).
3. После этого OldScore и LocalScore перемножаются, и в итоге получается новое число – NewScore. В соответствии с нею и происходит итоговое ранжирование всех N страниц.
Ключевое значение в таком алгоритме приобретает процесс нового ранжирования, в результате которого каждая страница получает Local Score. Рассмотрим этот процесс подробнее.
0. До того, как новый алгоритм ранжирования начинает свою работу, уже отобрано N страниц с помощью другого алгоритма, и каждой из них присвоен свой ранг OldScore. Новый алгоритм будет касаться только этих N страниц.
1. Расчет LocalScore для конкретной страницы начинается с выделения из N тех страниц, с которых на нее приходят внешние ссылки. Пусть это число страниц будет M. Причем в M не смогут попасть страницы с того же самого хоста (из-за фильтрации по IP) и зеркала данной страницы.
2. Группа M разбивается на подгруппы Li. В них оказываются страницы, имеющие следующие общие признаки:
- принадлежащие к одному хосту (или сходным хостам), т.е в одну и ту же подгруппу попадут те страницы, у которых совпадают первые девять цифр IP-адреса. Получается, если IP-адреса разных страниц попадают в диапазон ххх.yyy.zzz.0 – xxx.yyy.zzz.255, то они окажутся в одной подгруппе;
- если страницы имеют одинаковое или похожее наполнение (зеркала);
- если страницы относятся к одному сайту (домену).
3. Каждой странице в каждой подгруппе Li присвоен собственный ранг OldScore. Из каждой подгруппы берется одна страница, имеющая наибольшее значение OldScore, остальные страницы отсеиваются. В итоге мы получаем некоторое количество страниц К, которые ссылаются на анализируемую страницу.
4. Страницы в К сортируются по OldScore, затем остается k (некоторое заданное число) первых страниц, а остальные отсеиваются.
5. Теперь происходит расчет собственно LocalScore. Значения OldScore оставшихся k страниц суммируется, и далее параметр рассчитывается по такой формуле:
k
LocalScore = ∑ OldScore (i)m
i=1
m – некий заданный параметр, значение которого может колебаться от 1 до 3 (более подробно этот параметр в патенте, увы, не описан).
После того, как все страницы из множества N получили LocalScore, начинается расчет NewScore, после чего страницы сортируются уже согласно ему. Формула для расчета NewScore следующая:
NewScorе(i)= (a+LocalScorе(i)/МахLS)* (b+OldScore(i)/МахOS)
i – веб-страница, для которой выполняется расчет нового ранга.
a и b – заданные числа (подробной информации в патенте нет).
MaxLS – максимальное значение из рассчитанных LocalScore.
MaxOS – максимальное из OlsScore.
Если отвлечься от математики и попытаться описать процесс обычным языком, то он будет выглядеть следующим образом.
Первый этап – отбор определенного числа веб-страниц, соответствующих заданному запросу. Отбираются они по алгоритмам, для которых тематика ссылок не важна (релевантность, общая ссылочная цитируемость и т.п.).
На втором этапе происходит подсчет локальной ссылочной цитируемости каждой из отобранных страниц. Так как все страницы связаны с темой поисковой фразы, они имеют похожую тематику. После анализа ссылок, которые данные страницы делают друг на друга (все прочие страницы Интернета не учитываются), мы рассчитываем значение локальной, тематической ссылочной популярности.
После этого мы получаем для каждой страницы значения двух рейтингов: OldScore (рассчитанный на основе заданных факторов – релевантности, общей ссылочной цитируемости и пр.) и LocalScore (рассчитанный для группы страниц, связанных с заданной тематически). Расчет итогового рейтинга и окончательное ранжирование страниц проводится путем сочетания этих двух значений.
Постовой: продвижение сайтов недорого.
