PR 전체 이름 PageRank, 200 1 년 9 월 미국 특허 획득. 특허권자는 구글의 창시자 중 한 명인 래리 페이지 (Larry Page) 입니다. 그래서 PageRank 의 Page 는 웹 페이지가 아니라 page 를 의미합니다. 즉, 이 순위 방식은 page 로 명명됩니다.
알고리즘 소개
PageRank
기본 아이디어: 웹 페이지 T 에서 웹 페이지 A 로의 링크가 있는 경우 T 의 소유자는 A 가 더 중요하다고 생각하여 T 의 중요도 점수 중 일부를 제공합니다. 이 중요도 점수의 값은 PR(T)/C(T) 입니다
여기서 PR(T) 은 T 의 PageRank 값이고 C(T) 는 T 의 체인 수이므로 A 의 PageRank 값은 T 와 유사한 일련의 페이지 중요도 점수의 누적입니다.
Pr (a) = (1-d)+d (pr (t1)/c (t1)+…+
A 는 페이지 a 를 나타냅니다.
PR(A) 는 페이지 a 의 PR 값을 나타냅니다.
D 는 댐핑 지수입니다. 일반적으로 D=0.85 로 간주됩니다.
T 1 ... TN 은 페이지 a 에 연결된 페이지 t1TN 을 나타냅니다.
C 는 페이지의 외부 링크 수를 나타냅니다. C(t 1) 는 페이지의 외부 링크 수 t 1 입니다.
계산 공식에서 볼 수 있듯이 PR 값의 계산은 반복을 통해 계산해야 합니다.
장점: 쿼리와 무관한 정적 알고리즘이며, 모든 웹 페이지의 PageRank 값은 오프라인으로 계산됩니다. 온라인 쿼리 시 계산량을 효과적으로 줄이고 쿼리 응답 시간을 크게 줄입니다.
단점: 사람들의 질의에는 주제 특징이 있고, PageRank 는 주제 종속성을 무시하여 결과의 관련성과 주제성을 떨어뜨린다. 또한 PageRank 는 새로운 웹 페이지에 대한 차별이 심각합니다.
화제에 민감하다
(주제별 민감한 페이지 순위)
기본 아이디어: PageRank 의 주제 무시를 위한 것입니다. 핵심 아이디어: PageRank 벡터 컬렉션을 오프라인으로 계산하면 세트의 각 벡터가 주제와 관련이 있습니다. 즉, 한 페이지의 다른 주제에 대한 점수를 계산합니다. 주로 주제와 관련된 PageRank 벡터 세트의 계산과 온라인 조회시 주제의 확인이라는 두 단계로 나뉩니다.
장점: 사용자의 쿼리 요청 및 관련 컨텍스트에 따라 사용자 쿼리와 관련된 주제 (사용자의 관심) 를 정확하게 판단하고 쿼리 결과를 반환합니다.
단점: 링크 점수의 정확성을 높이기 위해 주제의 관련성을 이용하지 않습니다.
언덕 꼭대기
기본 아이디어: PageRank 와의 차이점은 전문가 페이지의 링크만 고려한다는 것입니다. 주로 전문가 페이지 검색과 대상 페이지 정렬의 두 단계로 구성됩니다. 장점: 상관 관계가 강하고 결과가 정확하다. 단점: 전문가 페이지의 검색 및 결정은 알고리즘에 중요한 역할을 하며, 전문가 페이지의 품질은 알고리즘의 정확성을 결정하며, 전문가 페이지의 품질과 형평성은 보장하기 어렵습니다. 수많은 비전문가 페이지의 영향을 무시하여 인터넷 전체의 민의를 반영할 수 없다. 전문가 페이지가 충분하지 않으면 빈 페이지가 반환되므로 Hilltop 은 쿼리 순위를 구체화하는 데 적합합니다.