미국 ODP 특허

검색 엔진 개발 기록

인터넷 발전 초기에는 야후를 대표하는 사이트 분류 카탈로그 조회가 유행했다. 웹 사이트의 분류 디렉토리는 수동으로 구성 및 유지 관리됩니다. 인터넷상의 우수한 웹사이트가 선정되어 간략하게 설명되고, 분류는 다른 디렉터리에 배치된다. (윌리엄 셰익스피어, 윈스턴, 인터넷명언) (윌리엄 셰익스피어, 윈스턴, 인터넷명언) 사용자가 질의할 때 층층 클릭을 통해 원하는 사이트를 찾을 수 있다. 어떤 사람들은 이런 디렉토리 기반 검색 서비스 사이트를 검색 엔진이라고 부르지만, 엄밀히 말하면 검색 엔진이 아니다.

1990 아치는 캐나다 맥길 대학교 컴퓨터학원 사제가 개발했다. 그 당시 월드 와이드 웹은 아직 나타나지 않았고, 사람들은 FTP 를 사용하여 통신 자원을 즐겼다. Archie 는 FTP 서버의 파일 이름 정보를 정기적으로 수집 및 분석하고 각 FTP 호스트의 파일 검색을 제공합니다. 사용자는 검색할 정확한 파일 이름을 입력해야 하며, Archie 는 파일을 다운로드할 수 있는 FTP 서버를 알려 줍니다. 아치가 수집한 정보 자원은 웹 페이지 (HTML 파일) 가 아니지만 검색 엔진과 같은 방식으로 작동합니다. 즉, 정보 자원을 자동으로 수집하고 색인을 작성하고 검색 서비스를 제공합니다. 그래서 아치는 현대 검색 엔진의 원조로 인정받고 있다.

검색 엔진의 기원

모든 검색 엔진의 시조는 몬트리올 맥길 대학의 세 학생 (애륜 엔타지와 피터 도이치, 빌 혜란) 이 1990 년에 발명한 아치 FAQ 입니다. Alan Emtage 등은 파일 이름으로 파일을 찾을 수 있는 시스템을 개발하는 것을 생각하자 Archie 가 생겨났다. Archie 는 인터넷에서 익명 FTP 사이트 파일을 자동으로 인덱싱하는 최초의 프로그램이지만 실제 검색 엔진은 아닙니다. Archie 는 검색 가능한 FTP 파일 이름 목록입니다. 사용자는 정확한 파일 이름 검색을 입력해야 합니다. 그러면 Archie 는 파일을 다운로드할 수 있는 FTP 주소를 알려 줍니다. Archie 의 인기도에 영감을 받아 네바다 시스템 컴퓨팅 서비스 대학은 1993 에서 Gopher(Gopher FAQ) 검색 도구인 Veronica(Veronica FAQ) 를 개발했습니다. Jughead 는 나중에 또 다른 햄스터 검색 도구입니다.

검색 엔진 개발

발전 (1)

Excite 의 역사는 2 월 1993 으로 거슬러 올라갑니다. 6 명의 스탠포드 대학 학생들의 생각은 단어 간의 관계를 분석하여 인터넷에서 대량의 정보를 더 효과적으로 검색할 수 있도록 하는 것이다. 1993 중반까지 이 프로젝트는 완전히 투입되었고, 역장들이 자신의 웹 사이트에서 사용할 수 있는 검색 소프트웨어 버전도 발표했습니다. 이 소프트웨어는 나중에 Excite for Web Servers 라고 불립니다.

참고: Excite 는 나중에 개념 검색으로 유명합니다. 2002 년 5 월 Infospace 에 인수된 Excite 는 자체 검색 엔진을 중단하고 메타 검색 엔진인 Dogpile 을 사용했습니다.

개발 (2)

1994 년 4 월 스탠포드 대학의 박사 학생 두 명, 미국계 중국인 양치원과 데이비드 페로 * * * 가 공동으로 야후를 창립했다! 。 방문수와 링크 수가 늘어남에 따라 야후 카탈로그는 간단한 데이터베이스 검색을 지원하기 시작했습니다. 야후 때문에! 의 데이터는 수동으로 입력되므로 실제로 검색 엔진으로 분류할 수 없습니다. 사실 검색 가능한 디렉토리일 뿐입니다. 야후! 사이트에 수록된 사이트에는 모두 간단한 정보가 첨부되어 있어 검색 효율성이 현저히 높아졌다.

참고: Yahoo 에 이어 Altavista, Inktomi, Google 은 검색 엔진 서비스를 지속적으로 제공할 예정입니다.

야후! 거의 90 년대 인터넷의 대명사가 되었습니다.

개발 (3)

1995 년, 새로운 검색 엔진 형식인 메타 검색 엔진이 등장했다. 사용자는 검색 요청을 한 번만 제출하면 됩니다. 메타 검색 엔진은 변환 처리 후 미리 선택된 여러 개의 독립 검색 엔진에 제출할 책임이 있으며, 독립형 검색 엔진에서 반환된 모든 질의 결과는 수집 처리 후 사용자에게 반환됩니다.

첫 번째 메타 검색 엔진은 워싱턴 대학의 석사생인 에릭 셀버그와 류문환 에치오니 (Liu Wenhuan Ezioni) 의 메타 크롤러 (Metacrawler) 입니다. 메타 검색 엔진은 개념적으로 보기 좋지만 검색 효과가 항상 만족스럽지 않아 메타 검색 엔진이 강세를 보인 적이 없다.

개발 (4)

스마트 검색의 출현: 분사 사전, 동의어 사전, 동음자사전을 이용하여 검색 효과를 높여 지식 수준이나 개념 수준의 질의를 더욱 보완할 수 있다. 주제 사전, 상위 사전 및 피어 관련 사전의 검색 처리를 통해 지식 체계 또는 개념 네트워크를 형성하고 사용자에게 지능적인 지식 힌트를 제공하여 궁극적으로 사용자가 최상의 검색 결과를 얻을 수 있도록 지원합니다.

예:

(1) "컴퓨터" 를 쿼리하고 "컴퓨터" 와 관련된 정보를 검색할 수 있습니다.

(2) 쿼리 범위는 "마이크로 컴퓨터", "서버" 또는 "정보 기술" 또는 관련 "전자 기술", "소프트웨어", "컴퓨터 응용 프로그램" 으로 더 좁힐 수 있습니다.

(3) "사과" 는 과일 또는 컴퓨터 브랜드를 의미하며, "중국인" 과 "중국인 * * * 과 중국" 의 구분은 모호한 지식 설명 라이브러리, 전체 텍스트 색인, 사용자 검색 컨텍스트 분석, 사용자 관련 피드백 등의 기술을 결합하여 효율적이고 정확하게 처리합니다

개발 (5)

개인화된 추세는 검색 엔진의 미래 발전의 중요한 특징과 필연적인 추세 중 하나이다. 한 가지 방법은 검색 엔진의 커뮤니티 제품 (즉, 등록된 사용자에게 서비스를 제공하는 제품) 을 통해 개인 정보를 구성한 다음 개인 요소를 검색 엔진의 기본 저장소 검색에 도입하여 개인에 대한 다양한 검색 결과를 얻는 것입니다. 2004 년 6 월 5438+ 10 월 야후부터 myweb 베타 출시, 2005 년 6 월 5438+065438+ 10 월 a9 까지 맞춤형 기능 출시, Googlesearchhistory 또 다른 하나는 인기, 구글 맞춤형 검색 엔진, yahooMindSet, vivisimo 를 겨냥한 것인데, 우리 모두는 이것이 전경 클러스터라는 것을 알고 있다. 그러나 어떤 구현 방법, 즉 Google 이 적극적으로 검색 범위나 Yahoo 를 선택하든, vivisimo 는 결과에서 필요한 정보를 재구성하는 것은 실험이나 아이디어이며, 단시간에 주류 검색 엔진 애플리케이션이 되지 않을 것이다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 성공명언)

개발 (6)

대규모 글로벌 그리드 기술: 네트워크 정보 자원을 처리하기 위한 통일된 정보 조직 표준이 없기 때문에 무질서한 네트워크 정보 자원은 검색, 전송, 활용, 심도 있는 개발로 고립된 정보를 형성하기가 어렵습니다. 그리드 기술은 고립된 정보를 없애고 인터넷의 모든 자원을 완벽하게 연결하기 위한 것입니다.

중국 글로벌 정보 그리드 (Global Information Grid)

로봇이라는 단어는 프로그래머에게 특별한 의미를 가지고 있다. 컴퓨터 로봇은 인간이 도달할 수 없는 속도로 임무를 반복할 수 있는 자동화 프로그램을 말한다. 정보를 검색하는 로봇 프로그램이 거미처럼 인터넷을 기어다니기 때문에 검색 엔진의 로봇 프로그램을 거미 프로그램이라고 합니다.

매튜 그레이는 1993 년 월드 와이드 웹 로버를 개발했는데, 이는 HTML 페이지 간의 연결 관계를 이용하여 월드 와이드 웹 규모를 감지하는 최초의 로봇 프로그램이다. 처음에는 인터넷에 있는 서버의 수를 집계하는 데 사용되었지만 나중에 웹 주소 (URL) 를 캡처할 수 있었습니다.

1994 년 4 월 스탠퍼드대 박사 양치원 (양치원) 과 데이비드 페로 * * * 가 공동으로 야후를 창립했다. 방문수와 링크 수가 늘어남에 따라 야후 카탈로그는 간단한 데이터베이스 검색을 지원하기 시작했습니다. 야후 때문에! 의 데이터는 수동으로 입력되므로 실제로 검색 엔진으로 분류할 수 없습니다. 사실 검색 가능한 디렉토리일 뿐입니다. 야후는 2002 년 2 월 23 일 inktomi 인수, 2003 년 7 월 23 일 f.a.s.t. 와 Altavista 를 포함한 Overture 인수, 2003 년 6 월 23 일 야후는 372 1 회사를 전액 인수했다.

1994 년 초 워싱턴 대학의 학생인 브라이언 핑크턴이 그의 작은 프로젝트 웹 크롤러를 시작했다. 1994 년 4 월 20 일 WebCrawler 는 서버 6,000 대의 컨텐츠만 포함했습니다. WebCrawler 는 인터넷에서 문서의 모든 단어 검색을 지원하는 최초의 전체 텍스트 검색 엔진입니다. 이전에는 사용자가 URL 과 요약을 통해서만 검색할 수 있었습니다. 일반적으로 수동 주석 또는 텍스트 앞 100 단어를 자동으로 추출하는 프로그램에서 검색할 수 있었습니다.

1994 년 7 월 카네기멜론 대학의 Michael Mauldin 은 John Leavitt 의 spider 프로그램을 색인 프로그램에 연결하고 Lycos 를 만들었습니다. Lycos 는 관련성 순위 외에도 접두어 일치 및 문자 유사성 제한을 제공합니다. Lycos 는 먼저 검색 결과에 웹 페이지 자동 다이제스트를 사용했으며, 가장 큰 장점은 다른 검색 엔진의 데이터 양을 훨씬 능가한다는 것입니다.

1994 가 끝나고 Infoseek 가 공식적으로 등장했습니다. 친숙한 인터페이스와 다양한 추가 기능을 통해 Lycos 와 같은 검색 엔진의 중요한 대표가 되었습니다.

1995 년, 새로운 형태의 검색 엔진인 메타 검색 엔진 개요가 등장했다. 사용자는 검색 요청을 한 번만 제출하면 됩니다. 메타 검색 엔진이 변환 처리를 담당하고, 미리 선택된 여러 개의 독립 검색 엔진에 제출하고, 각 독립형 검색 엔진에서 반환된 질의 결과를 모두 수집하여 사용자에게 반환합니다. 첫 번째 메타 검색 엔진은 워싱턴 대학의 석사생인 에릭 셀버그와 류문환 에치오니 (Liu Wenhuan Ezioni) 의 메타 크롤러 (Metacrawler) 입니다.

1995 65438+2 월 DEC 는 AltaVista 를 공식 발표했습니다. AltaVista 는 자연어 검색을 지원하는 최초의 검색 엔진이자 고급 검색 구문 (예: AND, OR, NOT 등) 을 구현하는 최초의 검색 엔진입니다. ). 사용자는 AltaVista 를 사용하여 뉴스그룹을 검색하고 인터넷에서 문장 정보를 얻을 수 있으며 그림 이름, 제목, Java 애플릿 및 ActiveX 객체에서 단어를 검색할 수 있습니다. 또한 AltaVista 는 사용자가 웹 인덱스 데이터베이스에 URL 을 제출하거나 삭제할 수 있도록 지원하는 최초의 검색 엔진이며 24 시간 이내에 시작할 수 있다고 주장합니다. AltaVista 의 가장 흥미로운 새로운 기능 중 하나는 URL 링크가 있는 모든 웹 사이트를 검색하는 것입니다. AltaVista 는 사용자 지향 인터페이스에서 많은 혁신을 했습니다. 검색 상자 영역에 "힌트" 를 배치하여 사용자가 검색 스타일을 더 잘 표현할 수 있도록 합니다. 이러한 팁은 자주 업데이트되므로 사용자가 여러 번 검색한 후 결코 알지 못할 수 있는 많은 흥미로운 기능을 볼 수 있습니다. 이 일련의 기능은 점차 다른 검색 엔진에 의해 광범위하게 채택되고 있다. 1997 년 AltaVista 는 사용자가 수천 개의 검색 결과에서 원하는 것을 찾을 수 있도록 그래픽 데모 시스템인 라이브 토픽을 발표했습니다.

1995 년 9 월 26 일, 캘리포니아 대학 버클리 조교수 에릭 브루어 (Eric Brewer) 와 박사 폴 고틸 (Paul Gauthier) 이 Inktomi 를 설립했다. 1996 년 5 월 20 일 Inktomi 가 설립되어 강력한 HotBot 이 세상 앞에 나타났다. 매일 65438+ 1 억 페이지 이상의 인덱스를 캡처할 수 있다고 주장하므로 다른 검색 엔진보다 훨씬 더 많은 새로운 컨텐츠가 있습니다. 또한 HotBot 은 쿠키를 사용하여 사용자의 개인 검색 기본 설정을 저장합니다.

1997 년 8 월 북극광 검색 엔진이 공식 등장했다. 데이터베이스에서 가장 큰 검색 엔진 중 하나였습니다. 그것은 정지자가 없다. 훌륭한 시사뉴스, 7 100 개 이상의 간행물로 구성된 특별 컬렉션, 그리고 좋은 고급 검색 문법이 있습니다. 간단한 검색 결과를 지원하는 최초의 자동 분류입니다.

1998 10 이전에는 구글이 스탠포드 대학의 작은 프로젝트였던 BackRub 였습니다. 1995 년 박사 래리 페이지는 검색 엔진 설계를 연구하기 시작했고 9 월 15 일 도메인 이름 1997 에 등록했습니다. 1997 년 말 세르게이 부울, 스콧 하산, 애륜 스트렌버그의 참여로 BachRub 는 Demo 를 제공하기 시작했다. /Alpha-0/999 년 2 월 구글은 알파판에서 베타 버전으로의 전환을 완료했습니다. 구글은 1998 년 9 월 27 일을 자신의 생일로 삼았다. 구글은 Pagerank 를 바탕으로 웹 페이지의 중요성을 판단해 검색 결과의 관련성을 크게 높였다. 구글의 극객문화와 악행을 하지 않는 것은 구글에 높은 명성과 브랜드 입소문을 불러일으켰다. 2006 년 4 월 구글은 자신의 중국어 이름' 구글' 을 발표했다. 이는 구글이 비영어권 국가에서 내놓은 첫 번째 이름이다.

Fast(Alltheweb) 는 1997 에 설립되어 노르웨이 과학기술대학 (NTNU) 학술 연구의 부산물이다. 1999 년 5 월 자체 검색 엔진 AllTheWeb 이 발표되었습니다. F.a.s.t. 의 목표는 세계에서 가장 크고 빠른 검색 엔진을 만드는 것입니다. F.a.s.t. (all the web) 는 ODP 별로 웹 페이지를 자동으로 분류하고, Flash 및 pdf 검색을 지원하고, 다국어 검색을 지원하며, 뉴스 검색, 사진 검색, 비디오, MP3 및 FTP 검색을 제공하며, 매우 강력한 고급 검색 기능을 제공합니다. (2003 년 2 월 25 일 f.a.s.t. 의 인터넷 검색 부서는 Overture 에 인수되었습니다.)

1996 년 8 월 소후사가 설립되어 중국어 사이트 분류 목록을 만들었는데, 한때' 지도를 찾아 인터넷을 통해 소후를 찾다' 는 명성을 얻었다. 인터넷 사이트가 급속히 늘어남에 따라 이런 수동으로 편집한 분류 카탈로그는 더 이상 적용되지 않는다. 2004 년 8 월 소후는 독립 도메인 이름 검색 사이트' 써우거우' 로' 3 세대 검색 엔진' 이라고 자칭했다.

Openfind 는 1998 65438+ 10 월에 설립되었으며, 대만 중정대 오생 교수가 이끄는 GAIS 연구소에서 유래한 기술입니다. 처음에 Openfind 는 단지 중국어 검색 엔진일 뿐이다. 절정기에 시나, 치모, 야후라는 세 개의 유명한 포털사이트에 중국어 검색 엔진을 제공했다. 그러나 2000 년 이후 시장은 점차 바이두와 구글에 의해 분할되었다. 2002 년 6 월, Openfind 는 GAIS30 프로젝트를 기반으로 Openfind 검색 엔진의 베타 버전을 재발행했고, PolyRankTM 을 출시했으며, 35 억 페이지를 축적하여 영어 검색 분야에 진출하기 시작했다고 발표했습니다.

5438 년 6 월 +2000 년 10 월, 두 북경대학교 동창, 하이퍼링크 분석의 특허 발명가, Infoseek 전 수석 엔지니어 리옌훙, 그의 친구 서용 (캘리포니아 버클리 박사 후) 이 베이징 중관촌에 바이두회사를 설립했다. 바이두 검색 엔진 베타 버전은 200 1 년 8 월 발표됐다 (바이두는 소호, 시나닷컴, 톰 등 다른 포털에만 검색 엔진을 제공한다), 바이두 검색 엔진은 200 1 년 10 월 22 일 공식 발표됐다

바이두 검색 엔진의 다른 기능으로는 바이두 스냅샷, 웹 미리 보기/모든 웹 미리 보기, 관련 검색어, 오타 수정 힌트, MP3 검색 및 플래시 검색이 있습니다. 2002 년 3 월 Blitzen 프로젝트가 시작된 이후 기술 업그레이드가 크게 가속화되었습니다. 나중에 또 스티커, 인식, 지도, 국학, 백과사전, 문서, 동영상, 블로그 등 다양한 제품을 선보여 네티즌들의 호평을 받았다. 2005 년 8 월 5 일 나스닥에 상장되어 발행 가격이 27.00 달러, 코드 BIDU 입니다. 개장 가격은 66.00 달러로 122.54 달러로 353.85% 인상되어 최근 5 년간 미국 주식 상장 신주의 최고 상승폭을 기록했다.

2003 년 2 월 23 일, 65438, 원혜총 수색 정식 독립운영, 중국 수색 성립. 2004 년 2 월 중국은 데스크톱 검색 엔진 인터넷 돼지 1.0 을 발표했다. 2006 년 3 월 중국 수색은 인터넷 돼지 ig (인터넷 게이트웨이) 로 이름이 바뀌었다.

2005 년 6 월 시나닷컴은 자율적으로 개발한 검색 엔진' 애문' 을 공식 선보였다. 2007 년부터 시나닷컴은 구글 검색 엔진을 즐겨 사용했다.

2007 년 7 월 1, 인터넷은 자체적으로 검색 기술을 개발하여 원래의 통합 검색과 웹 검색을 통합했습니다. 웹 검색, 사진 검색, 블로그 검색은 인터넷 검색을 위한 서비스를 제공합니다. 웹 검색은 자체 개발한 자연어 처리, 분산 스토리지 및 컴퓨팅 기술을 활용합니다. 사진 검색은 카메라 브랜드, 모델, 계절을 기반으로 하는 최초의 고급 검색 기능입니다. 블로그 검색은 동급 제품에 비해 포괄적이고 업데이트가 시기적절한 장점을 제공하며' 문장 미리 보기',' 블로그 파일' 과 같은 혁신적인 기능을 제공합니다.