검색 엔진 분류
검색 엔진은 작업 방식에 따라 전체 텍스트 검색 엔진, 카탈로그 색인 검색 엔진, 메타 검색 엔진의 세 가지 유형으로 나눌 수 있습니다.
전체 텍스트 검색 엔진
전체 텍스트 검색 엔진은 구글, f.a.s.t./all the 웹, AltaVista, Inktomi, Teoma, WiseNut 등 명실상부한 검색 엔진입니다. 외국의 대표로서 바이두는 국내의 유명 기업으로 활동하고 있다. 이들은 인터넷에서 추출한 다양한 웹 사이트 (주로 웹 페이지) 의 정보를 기반으로 사용자의 질의 기준과 일치하는 관련 레코드를 검색한 다음 특정 순서로 사용자에게 결과를 반환하므로 실제 검색 엔진입니다.
검색 결과의 출처를 보면 전체 텍스트 검색 엔진은 두 가지 유형으로 나눌 수 있습니다. 하나는 "거미" 또는 "로봇" 프로그램으로 알려진 자체 인덱서를 사용하여 자체 웹 데이터베이스를 구축하는 것입니다. 검색 결과는 위에서 언급한 7 대 엔진과 같이 자체 데이터베이스에서 직접 호출됩니다. 다른 하나는 다른 엔진의 데이터베이스를 임대하여 검색 결과를 사용자 정의 형식 (예: Lycos engine) 으로 정렬하는 것입니다.
색인/디렉토리 검색
카탈로그 색인에는 검색 기능이 있지만 엄밀히 말하면 실제 검색 엔진이 아니라 카탈로그별로 분류된 웹 사이트 링크 목록일 뿐이다. 사용자는 키워드를 검색할 필요 없이 카탈로그를 분류하기만 하면 필요한 정보를 찾을 수 있다. 카탈로그 색인에서 가장 대표적인 것은 유명한 야후 야후입니다. 다른 유명한 것은 오픈 카탈로그 항목 (DMOZ), LookSmart, About 등이다. 국내 소호, 시나닷컴, 인터넷 검색도 이런 범주에 속한다.
메타 검색 엔진 (메타 검색 엔진)
메타 검색 엔진이 사용자의 쿼리 요청을 수락하면 다른 엔진을 동시에 검색하고 결과를 사용자에게 반환합니다. 유명한 메타 검색 엔진에는 InfoSpace, Dogpile, Vivisimo 등이 있습니다. (메타 검색 엔진 목록) 대표적인 중국어 메타 검색 엔진이 검색 엔진입니다. 검색 결과 순위에서는 Dogpile 과 같은 소스 엔진에 따라 검색 결과를 직접 순위를 매기거나 Vivisimo 와 같은 자신의 규칙에 따라 결과를 재정렬하는 경우도 있습니다.
위의 세 가지 유형의 엔진 외에도 다음과 같은 비주류 형식이 있습니다.
통합 검색 엔진: 2002 년 말 HotBot 이 출시한 엔진. 이 엔진은 메타 검색 엔진과 비슷하지만, 동시에 여러 엔진을 호출하여 검색하는 것이 아니라 사용자가 제공하는 네 가지 엔진 중에서 선택하므로' 합산' 검색 엔진이라고 부르는 것이 더 정확하다는 점이 다릅니다.
포털 검색 엔진: AOL 검색 및 MSN 검색은 검색 서비스를 제공하지만 분류 디렉토리도 웹 데이터베이스도 없고 검색 결과는 완전히 다른 엔진에서 나옵니다.
전체 링크 무료 (FFA): 일반적으로 이러한 사이트는 단순한 스크롤 링크 항목일 뿐, 간단한 분류 카탈로그는 있지만 야후와 같은 카탈로그 인덱스보다 훨씬 작습니다.
위의 사이트는 모두 사용자에게 검색 및 조회 서비스를 제공하기 때문에 편의를 위해 흔히 검색 엔진이라고 합니다.
검색 엔진의 기본 작동 방식
검색 엔진의 작동 방식을 이해하면 일상적인 검색 애플리케이션 및 웹 사이트 제출 홍보에 큰 도움이 될 것입니다.
전체 텍스트 검색 엔진
검색 엔진 분류 섹션에서는 전체 텍스트 검색 엔진이 웹 사이트에서 정보를 추출하여 웹 데이터베이스를 구축하는 개념을 언급했습니다. 검색 엔진에는 두 가지 자동 정보 수집 기능이 있습니다. 하나는 일정 기간 (예: 구글은 보통 28 일) 마다 검색 엔진이 적극적으로' 거미' 프로그램을 실행하여 특정 IP 주소 범위 내의 인터넷 사이트를 검색하는 정기 검색이다. 새 웹 사이트가 발견되면 자동으로 웹 사이트 정보와 웹 주소를 추출하여 자체 데이터베이스에 추가합니다.
또 다른 하나는 웹 사이트 검색을 제출하는 것입니다. 즉, 웹 사이트 소유자가 자발적으로 검색 엔진에 웹 사이트 주소를 제출하는 것입니다. 검색 엔진은 일정 기간 (2 일에서 몇 달 등) 동안 웹 사이트에' 거미' 프로그램을 보내고, 웹 사이트를 스캔하고, 사용자가 조회할 수 있도록 관련 정보를 데이터베이스에 저장합니다. 검색 엔진의 색인 규칙이 최근 몇 년 동안 크게 바뀌었기 때문에, 적극적으로 웹사이트를 제출한다고 해서 검색 엔진 데이터베이스에 들어갈 수 있다는 보장은 없기 때문에, 현재 가장 좋은 방법은 더 많은 외부 링크를 얻는 것입니다. 검색 엔진이 당신을 찾을 수 있는 더 많은 기회를 갖게 하고, 자동으로 당신의 웹사이트를 수록할 수 있도록 하는 것입니다.
사용자가 키워드를 통해 정보를 검색할 때 검색 엔진은 데이터베이스를 검색합니다. 사용자 요구 사항에 맞는 웹 사이트를 찾으면 특수 알고리즘이 사용됩니다. 일반적으로 웹 페이지의 키워드 일치, 발생 위치/빈도, 링크 품질 등을 기준으로 합니다. -각 웹 페이지의 관련성과 순위 등급을 계산하고 관련성에 따라 웹 페이지 링크를 순차적으로 사용자에게 반환합니다.
색인/디렉토리 검색
전체 텍스트 검색 엔진과 비교하여 카탈로그 색인에는 많은 차이점이 있습니다.
첫째, 검색 엔진은 자동 웹 사이트 검색에 속하며 카탈로그 색인은 전적으로 수동 작업에 의존합니다. 사용자가 웹 사이트를 제출하면 카탈로그 편집자가 직접 웹 사이트를 방문한 다음 사용자 정의 평가 기준 또는 편집자의 주관적인 인상에 따라 웹 사이트를 수락할지 여부를 결정합니다.
둘째, 검색 엔진에 사이트가 포함되어 있을 때 사이트 자체가 관련 규칙을 위반하지 않는 한 일반적으로 로그인이 성공한다. 하지만 카탈로그 색인은 사이트에 대한 요구가 훨씬 높기 때문에, 여러 번 로그인해도 반드시 성공할 수 있는 것은 아니다. 특히 야후처럼! 이런 슈퍼 색인은 로그인하기가 더 어렵다. (야후 로그인으로 인해! 가장 어렵고, 인터넷 마케팅의 필쟁지이기 때문에, 우리 뒤에는 전용 공간에서 야후 로그인 기교를 소개할 것이다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 인터넷명언)
또한, 검색 엔진에 로그인 할 때, 우리는 일반적으로 사이트의 분류에 대해 생각 하지 않지만, 카탈로그 색인에 로그인 할 때, 우리는 가장 적합 한 디렉토리에 사이트를 넣어 해야 합니다.
마지막으로, 검색 엔진의 각 웹 사이트에 대한 정보는 사용자의 웹 페이지에서 자동으로 추출되므로 사용자의 관점에서 볼 때 우리는 더 많은 자율성을 갖게 됩니다. 하지만 카탈로그 색인은 수동으로 사이트 정보를 기입해야 하는데 여러 가지 제한이 있습니다. 더욱이, 직원들이 당신이 제출한 카탈로그와 사이트 정보가 적절하지 않다고 생각한다면, 그는 언제든지 조정할 수 있으며, 물론 미리 문의할 필요가 없습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 가족명언)
디렉토리 색인은 이름에서 알 수 있듯이 웹 사이트를 해당 디렉토리에 보관하는 것을 의미합니다. 사용자는 정보를 질의할 때 키워드 검색을 선택하거나 분류 카탈로그를 기준으로 계층별로 검색할 수 있습니다. 키워드별로 검색하면 검색 엔진과 동일한 결과가 반환되고 사이트도 정보 관련 정도에 따라 정렬되지만 인적 요소가 더 많습니다. 계층 카탈로그를 기준으로 검색하는 경우 한 목차에서 웹 사이트의 순위는 제목 문자의 순서에 따라 결정됩니다 (예외도 있음).
현재 검색 엔진과 카탈로그 색인은 서로 융합되고 상호 침투하는 경향이 있다. 원래 일부 순수 전체 텍스트 검색 엔진도 이제 카탈로그 검색을 제공합니다. 예를 들어 Google 은 분류 쿼리를 제공하기 위해 Open Directory 디렉토리를 차용했습니다. 야후처럼! 이 오래된 카탈로그 색인들은 구글 등 검색 엔진과 협력하여 검색 범위를 넓혔다. 기본 검색 모드에서는 일부 디렉터리 검색 엔진이 먼저 자신의 디렉터리에서 일치하는 사이트 (예: 국내 소호, 시나닷컴, 인터넷 등) 를 반환합니다. 나머지는 기본적으로 야후와 같은 웹 검색입니다.
검색 엔진 제 3 법칙
오늘은 검색 엔진이 과거를 끝내고 미래를 개척할 때이다. 내가 말한 제 3 법칙을 명확히 하기 위해서, 먼저 제 1 법칙과 제 2 법칙을 되돌아보자.
상대성 이론의 제 1 법칙
학술 논문처럼 들린다. 사실, 제 1 법칙과 제 2 법칙조차도 이전에 언급하지 않았지만, 제 1 법칙과 제 2 법칙의 내용은 업계와 학계에서 이미 인정되었다. 사실, 이 첫 번째 법칙은 인터넷이 등장하기 전부터 학계에서 광범위하게 연구되었습니다. 이른바 관련 법칙입니다. 당시 이 분야는 정보 검색, 정보 검색, 전문검색이라고 불렸다.
당시의 관련성은 단어 빈도 통계에 근거한 것으로, 즉 사용자가 검색어를 입력하고, 검색 엔진은 문장 (웹 페이지) 에서 빈도가 높고 위치가 중요한 검색어를 찾고, 검색어 자체의 상용도에 대한 가중치를 더하고, 마지막으로 결과 (검색 결과 페이지) 를 배출한다. 초기 검색 엔진 결과 순위는 본 문서의 첫 번째 법칙 (예: Infoseek, Excite, Lycos 등) 을 기준으로 했습니다. 이들은 기본적으로 인터넷 시대 이전의 학술 연구 성과를 그대로 따르고 있으며, 업계는 큰 트래픽과 큰 데이터를 처리하는 데 주력하고 있지만 관련성 순위는 돌파하지 않았다.
사실 단어 빈도 통계는 어떤 네트워크 관련 특성도 전혀 사용하지 않고 전 인터넷 시대의 기술이다. 인터넷 시대의 주요 문서는 모두 웹페이지로 존재하며, 거의 모든 사람이 인터넷에 각종 콘텐츠를 마음대로 게시할 수 있다. 단어 빈도가 같은 두 웹 페이지의 품질은 크게 다를 수 있지만 검색 엔진 제 1 법칙에 따르면 두 웹 페이지의 순위는 동일해야 한다. 일부 검색 결과에서 상위권을 차지하기 위해 많은 웹 콘텐츠 제작자들이 자신의 페이지에 키워드를 쌓기 위해 머리를 쥐어짜고, 검색 엔진이 방어할 수 없을 정도로 피해를 입었다. (윌리엄 셰익스피어, 검색어, 검색어, 검색어, 검색어, 검색어, 검색어, 검색어) 이 상황은 1996 에서 바뀌기 시작했다.
두 번째 법칙, 유행과 품질의 법칙
1996 년 4 월 라스베가스에 가서 정보 검색 학술회의를 열다. 회의 내용은 라스베가스의 날씨처럼 지루하다. 그러나 나는 회사에서 멀리 떨어져 있지만, 모처럼 마음을 가라앉히고 문제를 진지하게 생각할 기회가 있다. 중요하지 않은 논문 강좌를 듣고 있을 때, 나는 갑자기 과학 인용 색인의 메커니즘을 웹 페이지의 하이퍼링크와 연결시켰다. 북경대학교 감사합니다. 그녀는 내가 3 학년 때 과학 인용 색인의 메커니즘을 가르쳐 주었다. 아마도 미국에는 너의 학부에서 가르칠 대학이 없을 것 같다.
과학 인용문 색인의 메커니즘은 누가 인용되는 횟수가 많고, 누가 권위로 여겨지는지, 논문이 좋은 논문이라는 것을 분명히 한다. (알버트 아인슈타인, 과학명언) 이 사상은 인터넷에 이식되는데, 바로 누구의 웹페이지 링크 수가 많은 것이고, 그 홈페이지는 고퀄리티, 인기 있는 것으로 여겨진다. (윌리엄 셰익스피어, 윈스턴, 인터넷명언) 그에 상응하는 링크 텍스트 분석과 함께 검색 결과 순위에 사용할 수 있다. 이것은 검색 엔진의 두 번째 법칙인 인기 품질 법칙으로 이어진다. 이 법칙에 따르면 검색 결과의 관련성 순위는 단어 빈도 통계에 전적으로 의존하는 것이 아니라 하이퍼링크 분석에 더 많이 달려 있다.
나는 이것이 돌파구라는 것을 깨닫고, 돌아온 후 곧 자신의 생각을 총결했다. 1996 년 6 월, 저는 이 분야의 미국 특허를 신청했습니다. 1999 년 7 월 6 일 미국 특허상표국은 나를 유일한 발명가로 하는 제 5920859 호 특허를 승인했다. 약 1996 년 말 스탠포드 대학 컴퓨터학과 대학원생 두 명이 같은 해결책을 생각했다. 나중에 그들은 구글이라는 검색 엔진을 만들었습니다. 구글 사이트는 여전히 그들의 기술이 특허를 출원하고 있다고 말한다. 나는 미국 특허국이 다시 이런 특허를 수여할 수 있는지 알고 싶다. 어쨌든 하이퍼링크 분석 방법은 1998 년부터 주요 검색 엔진에 의해 점차 받아들여지고 있다. 링크는 네트워크 컨텐츠의 근본적인 특징이기 때문에 이 시점에서 검색 엔진은 실제로 인터넷 시대의 검색 기술을 사용하기 시작했다.
세상일은 예측하기 어렵다. 2000 년부터 인터넷 거품이 급속히 터지면서 주요 검색 엔진이 인수되거나 상장이 늦어지고 인기 품질법을 사용하는 모든 검색 엔진 회사도 면할 수 없었다. 그럼, 검색 엔진의 출구는 어디입니까?
세 번째 법칙, 자신감의 법칙
대중질량법은 또한 기술적인 문제를 해결했다. 그러나, 검색 엔진은 탄생한 날부터 결코 순수한 기술 현상이 아니며, 기술, 문화, 시장 등 다양한 요소들을 융합하고 있다. 검색 엔진 회사의 생존 발전 문제를 해결하려면 검색 엔진 제 3 법칙인 자신감의 법칙이 필요하다.
1998 년 실리콘 밸리에서 500 마일 떨어진 새로 설립된 GoTo.com (현재 Overture) 이라는 회사를 대수롭지 않게 여기는 사람이 별로 없었다. 단지 검색 엔진 기술 서비스를 구입한 다음 GoTo 검색 결과에서 해당 사이트의 순위를 해당 사이트 소유자에게 경매하는 것입니다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 검색명언) 누구의 유료도 1 위, 유료는 네티즌이 사이트를 클릭하는 상황에 따라 계산되며, 검색 결과에만 나타날 경우 유료가 필요하지 않습니다. 이것은 자신감의 법칙의 가장 빠른 실천자이다! 이 법칙에 따르면 검색 결과의 관련성 순위는 단어 빈도 통계와 하이퍼링크 분석 외에 입찰 경매에 더 많은 관심을 기울이고 있다. 자신의 웹사이트에 자신이 있는 사람은 누구나 1 등을 한다. 자신감의 상징은 이 순위에 대해 기꺼이 비용을 지불하겠다는 것이다. 선언해야 할 것은 자신감의 법칙도 내가 직접 이 모델에 이름을 붙인 이름이며, 이전 문헌에는 아무도 총결한 적이 없다는 것이다. (알버트 아인슈타인, 자신감명언)
인터넷 업계가 불황으로 나스닥이 중천인 오늘날, 고토는 6543 억 8+03 억 달러, 매출은 야후 총매출의 35% 에 달한다. 반면에 검색 엔진 서비스에서 총 매출의 3 분의 1 을 얻을 수 있는 포털은 무엇입니까? 그 이유는 등나무가 먼저 검색 엔진 자신감의 법칙을 짓밟았기 때문이다. 이전에는 검색 엔진이 CPM 에 의해 청구되었지만, CPM 은 인터넷 미디어의 즉시성, 상호 작용, 쉽게 입찰할 수 있는 특징을 고려하지 않고 전통적인 광고 업계를 차용했다. 그러나 입찰 순위와 클릭 요금은 전통적인 광고가 아닌 사이트 주인에게 직접 가망 고객을 제공한다. 자신감의 법칙은 과거 검색 엔진이 CPM 으로 돈을 받는 어색한 국면을 바꿔 인터넷에 속하는 유료 모델을 만들었다.