현재 위치 - 법률 상담 무료 플랫폼 - 특허 조회 - 자바로 파충류를 쓰는 방법은 무엇입니까?
자바로 파충류를 쓰는 방법은 무엇입니까?
파충류의 소스 코드와 관련된 주요 기술 포인트를 살펴보겠습니다.

(1) 패키지 구성

(2) 아날로그 로그인 (파충류 1 의 주요 기술 포인트)

아날로그 로그인은 로그인이 필요한 사이트 데이터를 등반하는 데 필요하고 종종 어려운 단계입니다. 파충류의 아날로그 로그인이 좋은 사례가 될 수 있다는 것을 알고 있다. 웹 사이트의 시뮬레이션 로그인을 구현하려면 두 단계가 필요합니다. (1) 로그인 요청 프로세스를 분석하고 중요한 요청 및 단계를 찾습니다. 분석 도구에는 IE (바로 가기 F 12), Fiddler, HttpWatcher; 가 포함될 수 있습니다. (2) 로그인 프로세스를 시뮬레이션하기 위해 코드를 작성하십시오.

(3) 웹 다운로드 (크롤러 2 의 기술적 포인트)

로그인을 시뮬레이션한 후 대상 웹 페이지 html 을 다운로드할 수 있습니다. 파충류는 get 과 post 라는 두 가지 일반적인 웹 다운로드 방법을 캡슐화하는 HTTP 클라이언트 기반 네트워크 연결 스레드 풀을 작성했습니다.

(4) 자동으로 웹 코드 얻기 (파충류의 주요 기술점 3)

웹 코드의 자동 획득은 다운로드한 웹 페이지 html 이 깨지지 않도록 하기 위한 전제 조건입니다. 파충류는 대부분의 다운로드 페이지 왜곡 문제를 해결할 수 있는 방법을 제공한다.

(5) 웹 페이지 분석 및 추출 (파충류의 주요 기술 포인트 4)

Java 로 파충류를 쓰고 추출 페이지를 구문 분석하는 데는 오픈 소스 Jar 패키지 Jsoup 와 정규화라는 두 가지 일반적인 방법이 있습니다. 일반적으로 Jsoup 은 문제를 해결할 수 있으며 Jsoup 이 추출을 확인할 수 없는 경우는 거의 없습니다. Jsoup 의 강력한 기능으로 구문 분석 및 추출이 매우 간단합니다. 파충류가 Jsoup 을 사용한다는 것을 알고 있다.

(6) 일반적인 매칭 및 추출 (파충류 기술 포인트 5)

파충류는 Jsoup 을 사용하여 웹 페이지를 구문 분석하지만, 일반 일치 및 데이터 추출 방법은 여전히 캡슐화되어 있습니다. 이는 파충류에서 일반 필터를 사용하여 URL 주소를 판단하는 것과 같은 다른 작업을 할 수 있기 때문입니다.

(7) 중복 제거 (파충류의 주요 기술적 포인트 6)

파충류의 경우 장면마다 다른 중복 제거 방안이 있다. (1) 수만 개 또는 수십만 개와 같은 작은 데이터의 경우, Map 또는 Set(2) 중간 데이터 (예: 수백만 또는 수천만) 를 사용할 수 있으며, BloomFilter (유명한 Bloom Filter) 로 해결할 수 있습니다. (3) 많은 데이터, 수억 또는 수십억은 Redis 로 해결할 수 있습니다. 파충류는 BloomFilter 의 구현을 제공했지만 Redis 를 사용하여 중복을 제거했습니다.

(8) 디자인 패턴 등 고급 자바 프로그래밍 실습.

위의 파충류의 주요 기술점 외에도 파충류의 구현에는 다양한 디자인 패턴, 주로 체인형 패턴, 단체 패턴, 조합 패턴 등이 포함되며 Java 반사도 사용됩니다. 파충류 기술을 배우는 것 외에도 디자인 패턴과 Java 반사 메커니즘을 배우는 좋은 사례이기도 하다.

4. 일부 수집 결과를 표시합니다