Первыми, кто запатентовал систему учета внешних ссылок стала компания Google. Алгоритм получил название PageRank. В этой главе мы расскажем об этом алгоритме и о том, как он может влиять на ранжирование результатов поиска.

PageRank рассчитывается для каждой веб-страницы отдельно, и определяется PageRank'ом (цитируемостью) ссылающихся на нее страниц. Своего рода замкнутый круг.

Главная задача заключается в том, чтобы найти критерий, выражающий важность страницы. В случае с PageRank таким критерием была выбрана теоретическая посещаемость страницы.

Рассмотрим модель путешествия пользователя по сети путем перехода по ссылкам. Предполагается, что пользователь начинает просмотр сайтов с некоторой случайно выбранной страницы. Затем по ссылкам он переходит на другие ресурсы. При этом есть вероятность того, что посетитель покинет сайт и вновь начнет просмотр документов со случайной страницы (в алгоритме PageRank вероятность такого действия принята 0.15 на каждом шаге). Соответственно, с вероятностью 0.85 он продолжит путешествие, перейдя по одной из доступных на текущей странице ссылок (все ссылки при этом равноправны). Продолжая путешествие до бесконечности, он побывает на популярных страницах много раз, а на малоизвестных - меньше.

Таким образом, PageRank веб-страницы определяется как вероятность нахождения пользователя на данной веб-странице; при этом сумма вероятностей по всем веб-страницам сети равна единице, так как пользователь обязательно находится на какой-либо странице.

Поскольку оперировать вероятностями не всегда удобно, то после ряда преобразований с PageRank можно работать в виде конкретных чисел (как, например, мы привыкли видеть его в Google ToolBar, где каждая страница имеет PageRank от 0 до 10).

Согласно описанной выше модели получаем, что:
[list]
[*]Каждая страница в сети (даже если на нее нет внешних ссылок) изначально имеет ненулевой PageRank (хотя и очень маленький).
[*]Каждая страница, имеющая исходящие ссылки, передает часть своего PageRank страницам, на которые ссылается. При этом переданный PageRank обратно пропорционален числу ссылок на странице - чем больше ссылок, тем меньший PageRank передается по каждой.
[*]PageRank передается не полностью, на каждом шаге происходит затухание (та самая вероятность 15%, когда пользователь начинает просмотр с новой, случайно выбранной, страницы).
[/list]

Рассмотрим теперь, каким образом PageRank может влиять на ранжирование результатов поиска (говорим "может", так как в чистом виде PageRank уже давно не участвует в алгоритме Google, как это было раньше, но об этом ниже). С влиянием PageRank все обстоит очень просто - после того как поисковая система нашла ряд релевантных документов (используя текстовые критерии), отсортировать их можно согласно PageRank - так как логично будет предположить, что документ, имеющий большее число качественных внешних ссылок, содержит наиболее ценную информацию.

Таким образом, алгоритм PageRank "вытесняет" наверх в поиске те документы, которые и без поисковика наиболее популярны.

Google PageRank - практическое использование

В настоящее время PageRank не используется непосредственно в алгоритме Google. Это и понятно - ведь PageRank характеризует лишь количество и качество внешних ссылок на сайт, но совершенно не учитывает ссылочный текст и информационное содержимое ссылающихся страниц - а именно этим факторам придется максимальное значение при ранжировании. Предполагается, что для ранжирования Google использует так называемый тематический PageRank (то есть учитывающий только ссылки с тематически связанных страниц), однако детали этого алгоритма известны лишь разработчикам Google.

Узнать значение PageRank для любой веб-страницы можно с помощью Google ToolBar, который показывает значение PageRank в диапазоне от 0 до 10. Следует учитывать, что Google ToolBar показывает не точное значение PageRank, а лишь диапазон PageRank, в который попадает сайт, причем номер диапазона (от 0 до 10) определяется по логарифмической шкале.

Поясним на примере: каждая страница имеет точное значение PageRank, известное только Google. Для определения нужного диапазона и вывода информации на ToolBar используется логарифмическая шкала (пример показан в таблице)

Код:
Реальное значение PR Значение ToolBar 
1-10 1
10-100 2
100-1000 3
1000-10.000 4
и т.д.

Все цифры условны, однако наглядно демонстрируют, что диапазоны PageRank, показываемые в Google ToolBar, не равнозначны друг другу. Например, поднять PageRank c 1 до 2 легко, а с 6 до 7 гораздо сложнее.

На практике PageRank используется в основном в двух целях:
[list=1]
[*]Быстрая оценка уровня раскрученности сайта.
[*]PageRank не дает точной информации о ссылающихся страницах, но позволяет быстро и просто "прикинуть" уровень развития сайта. Для англоязычных сайтов можно придерживаться следующей градации: PR 4-5 - наиболее типичный PR для большинства сайтов средней раскрученности. PR 6 - очень хорошо раскрученный сайт. PR 7 - величина, практически недостижимая для обычного вебмастера, но иногда встречается. PR 8, 9, 10 - встречаются только у сайтов крупных компаний (Microsoft, Google и т.п.). Знание PageRank можно использовать при обмене ссылками, для того чтобы оценить качество предложенной к обмену страницы и в других подобных ситуациях.
[*]Оценка уровня конкуренции по поисковому запросу.
[*]Хотя PageRank и не используется непосредственно в алгоритмах ранжирования, тем не менее позволяет косвенно оценить конкурентность заданного запроса. Например, если в выдаче поисковой системы стоят сайты с PageRank 6-7, то сайт с PageRank 4 имеет очень мало шансов подняться в топ.
[/list]

Еще одно важное замечание - значения PageRank, показываемые в Google ToolBar пересчитываются достаточно редко (раз в несколько месяцев), поэтому ToolBar показывает в некотором роде устаревшую информацию. То есть сама поисковая система Google учитывает изменения во внешних ссылках гораздо быстрее, чем эти изменения отображаются в Google ToolBar.

[right]© websate.ru[/right]