PageRank 는 네트워크의 거대한 하이퍼링크 관계를 통해 페이지 수준을 결정합니다. 구글은 A 페이지에서 B 페이지로의 링크를 A 페이지로 해석하여 B 페이지에 투표하는 것으로 해석하고, 구글은 투표원 (소스의 출처, 즉 A 페이지에 링크된 페이지) 과 투표 대상의 등급에 따라 새로운 등급을 결정합니다. 간단히 말해서, 한 높은 수준의 페이지는 다른 낮은 수준의 페이지 수준을 높일 수 있습니다.
PageRank 는 "투표" 링크를 요구합니다
한 페이지의 "투표 수" 는 연결된 모든 페이지의 중요성에 의해 결정됩니다. 한 페이지에 대한 하이퍼링크는 해당 페이지에 투표하는 것과 같습니다. 한 페이지의 PageRank 는 재귀 알고리즘을 통해 연결된 모든 페이지 ("연결된 페이지") 의 중요성에서 파생됩니다. 더 많은 링크가 있는 페이지는 더 높은 순위를 가질 것이다. 반대로 페이지에 링크가 없으면 순위가 없습니다.
2005 년 초 구글은 웹 링크에 새로운 속성인 nofollow 를 도입하여 역장과 블로거가 구글이 투표하지 않는 링크를 만들 수 있게 했다. 즉, 이러한 링크는' 투표' 가 아니라는 것이다. Nofollow 설정은 댓글 쓰레기를 막을 수 있다.
구글 툴바의 PageRank 지표 범위는 0 부터 10 까지입니다. 로그 스케일 알고리즘인 것 같아요. 디테일은 알 수 없어요. PageRank 는 구글의 상표이며, 그 기술은 이미 특허를 획득했다.
PageRank 알고리즘의 클릭 알고리즘은 존 클라인버그가 제안한 것이다.
페이지 순위 알고리즘
간단합니다.
A, b, c, d 의 네 페이지 그룹이 있다고 가정합니다. 모든 페이지가 a 에 연결된 경우 a 의 PR(PageRank) 값은 b, c, d 의 합계가 됩니다 .....
PR(A) = PR(B)+PR(C)+PR(D)
B 도 C 에 연결되어 있고, D 도 A 를 포함한 세 페이지에 연결되어 있다고 가정해 봅시다. 너는 한 페이지에 두 번 투표할 수 없다. 그래서 B 는 페이지당 반 장의 표를 준다. 같은 논리로, D 투표의 3 분의 1 만이 A 의 PageRank 에 계산된다.
Pr (a) = \ frac {pr (b)} {2}+\ frac {pr (c)} {1}+\ frac {;
즉, 한 페이지의 PR 값은 총 링크 수에 따라 균등하게 분할됩니다.
Pr (a) = \ frac {pr (b)} {l (b)}+\ frac {pr (c)} {l (c)}+\ frac}
마지막으로, 이 모든 것을 백분율로 변환하고 계수 Q 를 곱합니다. 아래 알고리즘으로 인해 페이지가 없는 PageRank 는 0 이 됩니다. 그럼 구글은 수학 시스템을 통해 각 페이지에 최소값 1 을 하나 줄까? 물어보세요.
Pr (a) = \ left (\ frac {pr (b)} {l (b)}+\ frac {pr (c)} {l (c)}
그래서 한 페이지의 PageRank 는 다른 페이지의 PageRank 를 통해 계산됩니다. 구글은 각 페이지의 PageRank 를 반복적으로 계산합니다. 각 페이지에 임의의 PageRank 값 (0 이 아님) 을 지정하면 반복 계산을 통해 해당 페이지의 PR 값이 정상적으로 안정화됩니다. 이것이 검색 엔진이 그것을 사용하는 이유이다.
완성
이 방정식은 어떤 사람이 인터넷에서 지루할 때 무작위로 페이지를 열고 링크를 클릭하는 무작위 브라우징이라는 개념을 도입했다. 페이지의 PageRank 값도 무작위로 탐색할 확률에 영향을 줍니다. 이해하기 쉽도록 서퍼들이 웹 페이지의 링크를 계속 클릭해 링크 페이지가 없는 웹 페이지에 도달한다고 가정해 봅시다. 이때 서퍼들은 무작위로 다른 홈페이지로 가서 브라우징을 시작한다.
연결된 페이지에 공평하게 하기 위해 Q = 0. 15(Q 의 의미는 위 참조) 의 알고리즘을 모든 페이지에 적용하여 인터넷 사용자가 페이지를 책갈피로 지정할 가능성을 추정합니다.
그래서 이 방정식은 다음과 같습니다.
{\ RM PageRank} (p _ I) = \ frac {q} {n}+(1-q) \ sum _ {p _ j
P 1, p2, ..., pN 은 학습한 페이지, M(pi) 은 pi 에 연결된 페이지 수, L(pj) 은 pj 에 연결된 페이지 수, n 은 모든 페이지 수입니다.
PageRank 값은 특수 행렬의 고유 벡터입니다. 이 고유 벡터는
\mathbf{R} = \begin{bmatrix}
R 은 등식의 답이다
\ mathbf {r} = \ begin {bmatrix} {q/n} \ \ {q/n} \ \ \ vdots \ \ {q/n \ell(p_ 1, p _ 2)& amp;; \ cdots & amp\ell(p_ 1, p _ N)\ \ ell(p _ 2, p _1 \ d dots & amp& \ \ \ vdots & amp & ampell (p _ I, p _ j)& amp;; \\ \ell(p_N, p _1) & & amp& amp\ell(p_N, p_N) \end{bmatrix} \mathbf{R}
\ell(p_i, p_j) = 0, pj 가 pi 에 연결되지 않고 각 j 에 대해 참이면.
\ sum _ {I =1} n \ ell (p _ I, p_j) = 1,
이 기술의 주요 단점은 이전 페이지 수준이 새 페이지보다 높다는 것입니다. 아주 좋은 새 페이지라도 사이트의 하위 사이트가 아닌 한 업스트림 링크가 많지 않기 때문입니다.
이것이 PageRank 가 여러 알고리즘의 결합을 필요로 하는 이유이기도 하다. PageRank 는 위키피디아 페이지를 선호하는 것처럼 보이며, 항목 이름의 검색 결과에서 항상 대부분의 페이지 또는 다른 모든 페이지보다 앞서고 있습니다. 주된 이유는 위키피디아와 많은 사이트 사이에 많은 링크가 있기 때문이다.
구글은 종종 악의적인 행동을 벌하여 PageRank 를 높이지만, 정상적인 링크 교환과 비정상적인 링크 축적을 어떻게 구분할 것인가는 여전히 영업 비밀이다.