Ссылаться на:time.geek help .org/column/Ruiti...
1. Расчет PageRank
Предположим, что всего 4 страницы A, B, C, D. Связи между ними показаны на картинке:
Проще говоря, влияние веб-страницы = сумма взвешенного влияния всех страниц в наборе цепочки, которая выражается формулой:
u — это страница, которую нужно оценить, а Bu — это коллекция страниц u в цепочке. Для любой страницы v во множестве входящих цепочек влияние, которое она может оказать на u, равно ее собственному влиянию PR(v), деленному на количество исходящих ссылок страницы v, то есть страница v равномерно распределяет влияние PR(v ) Дана исходящая ссылка, так что учитываются все страницы v, которые могут привести к ссылкам на u, и полученная сумма представляет собой влияние страницы u, то есть PR(u).
В этом примере у A есть три исходящие ссылки, связанные с B, C и D соответственно. Тогда, когда пользователь получает доступ к A, есть возможность перейти к B, C или D, и вероятность перехода равна 1/3.
B имеет две исходящие ссылки, связанные с A и D, с вероятностью перехода 1/2.
Получите матрицу перехода M четырех веб-страниц A, B, C и D:
Мы предполагаем, что начальное влияние четырех страниц A, B, C и D одинаково, а именно:
После первой передачи влияние w1 каждой страницы становится:
Затем умножаем матрицу перехода на w1, чтобы получить результат w2.После n-й итерации влияние wn уже не меняется, и оно может сходиться к (0,3333, 0,2222, 0,2222, 0,2222), что соответствует A, B, C, D Влияние четырех страниц на конечное равновесное состояние.
2. Модель случайного просмотра
Утечка ранга: если узел имеет только входную степень и не имеет исходящей степени, он поглощает значение PR других узлов, не освобождая его, что в конечном итоге приведет к тому, что значение PR других узлов будет равно 0.
Приемник ранга: если узел имеет только исходящую степень и не имеет входящей степени, значение PR этого узла в конечном итоге будет равно 0.
Для решения двух вышеуказанных проблем Ларри Пейдж предложил усовершенствованную модель рандомного просмотра PageRank, в основе которой лежит такой сценарий: при просмотре веб-страниц пользователи не всегда следуют пути перехода по ссылкам, и могут быть пользователи Это заключается в прямом вводе URL-адреса для посещения других страниц, хотя такая вероятность относительно невелика. В частности, определите коэффициент демпфирования d, который означает, что пользователь переходит на новую веб-страницу по ссылке, которая обычно имеет значение 0,85, и формула выглядит следующим образом:
Среди них N — это общее количество веб-страниц, так что мы можем повторить расчет веса веб-страниц, потому что добавляется коэффициент демпфирования d, который в определенной степени решает проблемы утечки уровня и понижения уровня.