키워드와 해당 웹 페이지에 가중치를 부여하는 방법

2. 1 단어 빈도 통계에 기반한 검색 엔진-단어 비트 가중치

키워드를 사용하여 문서의 발생 빈도와 위치를 정렬하는 것이 검색 엔진의 가장 오래된 주요 아이디어이며 기술 발전도 가장 성숙합니다. 검색 엔진 1 단계의 주요 정렬 기술이며 널리 사용되고 있으며 여전히 많은 검색 엔진의 핵심 정렬 기술입니다. 기본 원칙은 키워드가 문서에 나타나는 빈도가 높을수록 위치가 중요하고 검색어와의 관련성이 높다는 것입니다.

1) 단어 빈도 통계

문서의 단어 빈도는 질의 키워드가 문서에 나타나는 빈도를 나타냅니다. 문서에서 질의 키워드가 나타나는 빈도가 높을수록 관련성이 높아집니다. 그러나 키워드가 상용어일 때 관련성에 대한 판단은 의미가 크지 않다. TF/IDF 는 이 문제를 잘 해결했다. TF/IDF 알고리즘은 정보 검색 분야에서 가장 중요한 발명품으로 간주됩니다. TF (용어

빈도): 개별 텍스트 단어가 나타나는 빈도로, 키워드 수를 웹 페이지의 총 단어 수로 나눕니다. 그 상인은' 키워드의 빈도' 라고 불린다. IDF (역방향 문서

빈도): 역행 텍스트 빈도 지수입니다. 즉, 키워드가 이미 N 개의 웹 페이지에 나타난다는 원리입니다. 따라서 N 이 클수록 이 키워드의 가중치가 작아지고 그 반대의 경우도 마찬가지입니다. 키워드가 상용어일 때, 가중치는 매우 작아서 단어 빈도 통계의 결함을 해결했다.

2) 단어 위치 가중치

검색 엔진에서 단어 비트 가중치는 주로 웹 페이지에 사용됩니다. 따라서 페이지 레이아웃 정보를 분석하는 것이 중요합니다. 웹 페이지에서 검색 키워드의 위치와 레이아웃에 서로 다른 가중치를 부여하여 가중치를 기준으로 검색 결과가 검색 키워드와 관련된 정도를 결정할 수 있습니다. 고려할 수 있는 레이아웃 정보에는 제목인지 여부, 키워드인지 여부, 문자인지 여부, 글꼴 크기, 굵게 여부 등이 있습니다. 또한 앵커 텍스트의 정보도 중요하며 일반적으로 가리키는 페이지의 내용을 정확하게 설명할 수 있습니다.

2.2 링크 분석 및 순위를 기반으로 한 2 세대 검색 엔진

분석과 순위를 연결하는 사상은 인용 지수 메커니즘에서 비롯된다. 즉, 한 논문이 인용되는 횟수가 많을수록 권위가 커질수록 그 논문은 더욱 가치가 있다. 링크 분석과 순위 지정 아이디어도 비슷하다. 한 웹 페이지가 다른 웹 페이지나 더 권위 있는 웹 페이지에 의해 인용되는 횟수가 많을수록 그 가치는 커진다. 다른 홈페이지에 의해 인용되는 횟수가 많을수록 인기가 많아지고 권위가 높을수록 품질이 높아진다. 링크 분석 순위 알고리즘은 PageRank 및 Repution 알고리즘과 같은 임의 로밍 모델을 기반으로 크게 분류할 수 있습니다. SALSA 및 PHITS； 와 같은 확률 모델을 기반으로 합니다. 허브와 권위에 기반한 상호 강화 모델 (예: HITS 및 그 변종) 베이시안 알고리즘과 그 단순화된 버전과 같은 베이시안 모델을 기반으로 합니다. 실제 응용에서는 기존 콘텐츠 분석 기술과 결합하여 알고리즘을 최적화했습니다. 이 기사에서는 주로 다음과 같은 고전적인 정렬 알고리즘에 대해 설명합니다.

1)PageRank 알고리즘

PageRank 알고리즘은 스탠포드 대학의 박사 학생인 Sergey Brin 과 Lwraence 가 개발한 것이다.

페이지 등. PageRank 알고리즘은 구글 검색 엔진의 핵심 순위 알고리즘으로, 구글이 세계에서 가장 성공적인 검색 엔진이 되는 중요한 요소 중 하나이며 링크 분석 연구의 열풍을 불러일으켰다.

PageRank 알고리즘의 기본 아이디어는 PageRank 값을 사용하여 페이지의 중요성을 측정하는 것입니다. 주로 페이지 참조 페이지 수와 페이지 참조 페이지의 중요성의 두 가지 측면에 반영됩니다. 한 페이지 P(A) 는 다른 페이지 P(B) 에 의해 참조되며 P(B) 권장 P(A), P(B) 의 중요성 (pageRank 값) 을 P(B) 가 참조하는 모든 페이지에 균등하게 할당하는 것으로 볼 수 있습니다. 또한 P(B) 가 중요할수록 참조 페이지에 할당할 수 있는 PageRank 값이 많을수록 P(A) 의 PageRank 값이 높을수록 더 중요합니다.

계산 공식은 다음과 같습니다.

PR(A): 페이지 a 의 PageRank 값;

D: 댐핑 계수. 일부 페이지가 연결되지 않았거나 연결되어 있지 않기 때문에 PageRank 값을 계산할 수 없습니다. 이 문제 (즉, LinkSink 문제) 를 피하기 위해 제기된 것입니다. 댐핑 계수는 일반적으로 0.85 로 지정됩니다.

R(Pi): 페이지 Pi 의 PageRank 값;

C(Pi): 페이지 외부의 링크 수;

PageRank 의 초기 계산 값은 동일합니다. 중요한 페이지 링크를 무시하지 않는 페이지도 중요하기 때문에 반복 연산이 필요하다. 장영해가 쓴 계산 결과에 따르면 10 반복을 초과하면 링크 평가 값이 안정화되어 시스템의 PR 값이 여러 반복 후에 수렴됩니다.

PageRank 는 쿼리와 무관한 정적 알고리즘이므로 모든 웹 페이지의 PageRank 값은 오프라인으로 계산할 수 있습니다. 이렇게 하면 사용자가 검색할 때 필요한 정렬 시간이 줄어들고 쿼리 응답 시간도 크게 줄어듭니다. 그러나 PageRank 에는 두 가지 결함이 있습니다. 첫째, PageRank 알고리즘은 새로운 웹 페이지를 심각하게 차별합니다. 왜냐하면 새로운 웹 페이지의 외발과 내발 링크는 일반적으로 적고 PageRank 값은 낮기 때문입니다. 또한 PageRank 알고리즘은 외부 링크의 수와 중요성에만 의존하며 페이지의 주제 관련성을 무시하여 광고 페이지와 같은 일부 주제가 관련이 없는 페이지에 더 큰 PageRank 값을 부여하여 검색 결과의 정확성에 영향을 줍니다. 이 때문에 다양한 화제 관련 알고리즘이 생겨났는데, 그중 다음 알고리즘이 가장 전형적이다.

2) 주제에 민감한 페이지 순위 알고리즘.

원래 PageRank 알고리즘에서 화제 관련 요인을 고려하지 않았기 때문에 스탠퍼드대 컴퓨터학과 타헬

Haveli-wala 는 주제에 민감한 PageRank 알고리즘을 제시하여' 주제 표류' 문제를 해결했다. 이 알고리즘은 일부 페이지가 특정 영역에서 중요하다고 간주되는 것을 고려하지만, 다른 영역에서도 중요하다는 것을 의미하지는 않습니다.

웹 A 와 웹 B 사이의 링크는 웹 A 가 웹 B 에 대한 점수로 볼 수 있으며, 웹 A 와 웹 B 가 같은 주제에 속할 경우 A 가 B 에 대한 점수가 더 안정적이라고 생각할 수 있습니다. A 와 B 는 시각적으로 동갑내기로 볼 수 있고, 동갑내기는 종종 동갑내기보다 동갑내기에 대해 더 잘 알기 때문에, 동갑내기 점수가 동갑내기가 아닌 점수보다 더 믿을 수 있는 경우가 많다. 불행히도 TSPR 은 주제의 연관성을 사용하여 링크 점수의 정확성을 높이지 않았습니다.

3) 산정 알고리즘

힐탑은 구글의 엔지니어인 바라트가 200 1 에서 신청한 특허입니다. HillTop 은 PageRank 의 쿼리 독립성을 극복하는 쿼리 관련 링크 분석 알고리즘입니다. HillTop 알고리즘은 동일한 주제에 대한 관련 문서 링크가 검색자에게 더 큰 가치가 있다고 생각합니다. 사람들이 자원을 탐색하도록 안내하는 데 사용되는 전문가 페이지 (내보내기) 만 산꼭대기에 있습니다.

출처). Hilltop 이 질의 요청을 받으면 먼저 질의 주제를 기준으로 가장 관련성이 높은 전문가 페이지 목록을 계산한 다음 대상 페이지를 가리키는 비종속 전문가 페이지의 수와 관련성을 기준으로 대상 페이지를 정렬합니다.

HillTop 알고리즘은 웹 페이지가 검색 키워드와 일치하는 기본 정렬 프로세스를 결정하고, PageRank 값에 지나치게 의존해 권위 있는 페이지를 찾는 방법을 대체하며, 많은 잘못된 링크를 추가하여 웹 페이지 PageRank 값을 높이려는 부정행위 방법을 많이 피합니다. 힐탑 알고리즘은 서로 다른 등급을 통해 평가 결과와 키워드의 연관성을 보장하고, 서로 다른 위치를 통해 주제 (업종) 의 연관성을 보장하며, 구 수를 구분함으로써 키워드 축적을 방지합니다.

전문가 페이지의 검색 및 결정은 알고리즘에서 중요한 역할을 하며, 전문가 페이지의 품질은 알고리즘의 정확성에 결정적인 역할을 하며, 이는 대부분의 비전문가 페이지의 영향을 무시합니다. 전문가 페이지가 인터넷에서 차지하는 비율이 매우 낮아 (1.79%) 모든 인터넷 페이지를 대표할 수 없기 때문에 HillTop 에는 한계가 있습니다. 동시에, PageRank 알고리즘과는 달리, HillTop 알고리즘의 연산은 온라인으로 실행되어 시스템의 응답 시간에 큰 압력을 가하고 있다.

4) 클릭 수

클릭 (하이퍼링크로 인한 테마

검색) 알고리즘은 1998 에서 Kleinberg 에 의해 제안되었으며 하이퍼링크 분석에 기반한 또 다른 가장 유명한 정렬 알고리즘 중 하나입니다. 이 알고리즘은 하이퍼링크의 방향에 따라 웹 페이지를 권위 있는 페이지와 피벗 페이지의 두 가지 범주로 나눕니다. 권위 있는 페이지는 권위 페이지라고도 하며, 쿼리 키워드와 그 조합에 가장 가까운 페이지를 말하며, 허브 페이지는 목차 페이지라고도 합니다. 이 페이지의 내용은 주로 많은 권위 있는 페이지에 대한 링크이며, 그 주된 역할은 이러한 권위 있는 페이지를 결합하는 것이다. 권위 있는 페이지 P 의 경우 P 를 가리키는 허브 페이지가 많을수록 품질이 높을수록 P 의 권위 값이 커집니다. Hub 페이지 H 의 경우 H 가 가리키는 권위 있는 페이지가 많을수록 권위 있는 페이지 품질이 높아지고 H 의 Hub 값이 커질수록 ... 전체 웹 수집에서 권위와 허브는 상호 의존성, 상호 촉진, 상호 강화입니다. 권위와 허브 사이의 최적화된 관계는 HITS 알고리즘의 기초이다.

HITS 의 기본 사상은 알고리즘이 웹 페이지의 입사도 (해당 웹 페이지에 대한 하이퍼링크) 와 출도 (해당 웹 페이지에서 다른 웹 페이지를 가리키는 것) 를 기준으로 웹 페이지의 중요성을 측정하는 것이다. 범위를 정의한 후 웹 페이지의 경계 및 경계를 기준으로 행렬을 설정하고, 행렬의 반복 연산 및 수렴 임계값의 정의를 통해 수렴할 때까지 Authority 및 Hub 벡터의 값을 지속적으로 업데이트합니다.

실험 자료에 따르면 HITS 의 정렬 정확도는 PageRank 보다 높으며, HITS 알고리즘은 네트워크 사용자가 네트워크 리소스 품질을 평가하는 공통 기준을 충족하도록 설계되어 사용자가 네트워크 정보 검색 도구를 더 잘 사용하여 인터넷 리소스에 쉽게 액세스할 수 있도록 합니다.

그러나 다음과 같은 결함이 있습니다. 첫째, HITS 알고리즘은 주 피쳐 벡터만 계산하며 주제 이동을 잘 처리하지 못합니다. 둘째, 좁은 화제를 검색할 때 화제 일반화 문제가 발생할 수 있습니다. 셋째로, HITS 알고리즘은 실험적인 시도라고 할 수 있다. 네트워크 정보 검색 시스템에서 컨텐츠 지향 검색 작업을 수행한 후에는 컨텐츠 검색 결과 페이지와 직접 연결된 페이지 간의 링크 관계를 기준으로 계산해야 합니다. 누군가가 알고리즘을 개선하고 링크 구조 컴퓨팅 서버 (연결) 를 구축하려고 했지만

서버) 는 온라인 실시간 컴퓨팅을 어느 정도 실현할 수 있지만 컴퓨팅 비용은 여전히 받아들일 수 없습니다.

2.3 지능형 정렬을 기반으로 한 3 세대 검색 엔진

순위 알고리즘은 검색 엔진에서 특히 중요한 역할을 한다. 현재 많은 검색 엔진이 사용자의 만족도를 높이기 위해 새로운 순위 방법을 더 연구하고 있습니다. 하지만 현재 2 세대 검색 엔진에는 두 가지 단점이 있다. 이러한 맥락에서 지능형 정렬을 기반으로 하는 3 세대 검색 엔진이 등장했습니다.

1) 관련 문제

관련도는 검색어가 페이지와 관련된 정도를 나타냅니다. 언어의 복잡성으로 인해 링크 분석 및 웹 페이지의 표면 특성만을 통해 검색어와 페이지의 관련성을 판단하는 것은 일방적입니다. 예를 들어,' 벼 도열' 을 검색하면 벼 병충해 정보를 소개하는 홈페이지가 있지만 본문에' 벼 도열' 이라는 단어가 없으면 검색 엔진에서 전혀 검색할 수 없다. 바로 이런 이유로 대량의 검색 엔진 부정행위 현상은 해결할 수 없다. 상관관계를 해결하는 방법은 의미 이해를 높이고 검색 키워드가 웹 페이지와 얼마나 관련이 있는지 분석하는 것이다. 관련성 분석이 정확할수록 사용자의 검색 효과가 향상됩니다. 또한 관련성이 낮은 웹 페이지를 탈락시켜 검색 엔진의 부정행위를 효과적으로 방지할 수 있다. 검색키워드와 웹페이지의 연관은 인터넷에서 실행돼 시스템에 큰 압력을 가할 수 있다. (윌리엄 셰익스피어, 검색어, 검색어, 검색어, 검색어, 검색어, 검색어) 분산 아키텍처는 시스템의 규모와 성능을 향상시킬 수 있습니다.

2) 검색 결과 단순화

검색 엔진에서 누구나 같은 단어를 검색하면 같은 결과를 얻을 수 있다. 이것은 사용자의 요구에 맞지 않는다. 사용자마다 검색 결과에 대한 요구 사항이 다릅니다. 예를 들어, 일반 농민들이' 벼 도열' 을 수색하는 것은 단지 벼 도열 및 예방 방법에 대한 정보를 얻기 위한 것이지만, 농업 전문가나 과학기술자들은 벼 도열 관련 논문을 얻기를 원할 수 있다.

검색 결과를 해결하는 단일 방법은 개인화된 서비스를 제공하여 지능적인 검색을 실현하는 것이다. 웹 데이터 마이닝을 통해 사용자 배경, 관심 분야, 행동, 스타일 등의 사용자 모델을 구축하여 맞춤형 서비스를 제공합니다.