1, 내장 브라우저 커널
내장 브라우저는 크롤러에서 브라우저 커널을 시작하여 js 렌더링 페이지를 얻을 수 있으므로 정적 페이지만 수집할 수 있습니다. 일반적으로 사용되는 도구는 -Selenium-HtmlUnit-PhantomJs 세 가지입니다.
이러한 도구는 비동기 데이터 로드 문제를 해결하는 데 도움이 되지만 비효율적이고 불안정한 결함이 있습니다.
2. 역분석법
역분석법이란 무엇입니까? Js 렌더링 페이지의 데이터는 Ajax 를 통해 백엔드에서 가져옵니다. 해당 Ajax 요청 연결만 찾으면 필요한 데이터를 얻을 수 있습니다. 역분석 방법의 장점은 이렇게 얻은 데이터가 모두 JSON 형식의 데이터이므로 분석하기가 더 편리하다는 것이다. 또 다른 장점은 페이지보다 인터페이스가 바뀔 확률이 적다는 것이다. 마찬가지로 두 가지 단점이 있습니다. 하나는 Ajax 의 인내와 기교가 필요하다는 것이다. 큰 푸시 요청에서 원하는 것을 찾아야 하고, 다른 하나는 JavaScript 가 렌더링한 페이지에 대해 아무것도 할 수 없기 때문이다. (알버트 아인슈타인, 인내명언)