Hadoop 실용 작품 목록

첫 번째 부분은 Hadoop—— 입니다. 분산 프로그래밍 프레임워크입니다.

1 장 Hadoop 2 소개

1. 1 왜 하닷컴 전투 3 을 써요

1.2 Hadoop 3 이란 무엇입니까?

1.3 분산 시스템 및 Hadoop 4 이해

1.4 SQL 데이터베이스와 Hadoop 5 비교

1.5 MapReduce 6 이해

1.5. 1 간단한 프로그램의 수동 확장 7

1. 5. 2 MapReduce 9 의 동일한 프로그램 확장

1.6 Hadoop 으로 단어 계산-첫 번째 프로그램 1 1 을 실행합니다.

1.7 Hadoop 히스토리 15

1.8 요약 16

1.9 자원 16

2 장 Hadoop 17 이해

2. 1 Hadoop 빌딩 블록 17

2.1..1명명된 노드 17

2. 1.2 데이터 노드 18

2. 1.3 2 차 NameNode 19

2. 1.4 작업 추적 19

2. 1.5 임무 추적자 19

2.2 Hadoop 클러스터용 SSH 2 1 설치

2.2. 1 공용 계정 정의 2 1.

2.2.2 SSH 설치 확인 2 1

2.2.3 SSH 키 쌍 생성 2 1

2.2.4 공개 키 배포 및 로그인 인증 22

2.3 Hadoop 실행 22

2.3. 1 로컬 (독립형) 모드 23

2.3.2 의사 분포 패턴 24

2.3.3 완전 분배 모델 25

2.4 웹 기반 클러스터 사용자 인터페이스 28

2.5 요약 30

3 장 Hadoop 구성 요소 3 1

3. 1 HDFS 파일 작업 3 1

3.1..1기본 파일 명령 32

3. 1.2 프로그래밍 읽기 및 쓰기 HDFS 35

3.2 MapReduce 프로그램 분석 37

3.2. 1 Hadoop 데이터 유형 39

3.2.2 매퍼 40

3.2.3 감속기 4 1

3.2.4 파티션: 리디렉션 매퍼 출력 4 1.

3.2.5 통합기: 로컬 복원 43

3.2.6 미리 정의된 매퍼 및 감소기 클래스의 단어 수 43

3.3 읽기와 쓰기 43

입력 형식 44

출력 형식 49

3.4 요약 50

2 부 실전

4 장 MapReduce Basic 프로그램 작성 52

4. 1 특허 데이터 세트 얻기 52

4.1..1특허 참조 데이터 53

4. 1.2 특허 설명 데이터 54

4.2 MapReduce 프로그램 구축을 위한 기본 템플릿 55

4.3 카운트 60

4.4 Hadoop API 64 의 변화에 적응

4.5 Hadoop 스트림 67

4.5. 1 Unix 명령을 통한 스트림 68 사용

4.5.2 스크립트를 통한 스트림 사용 69

4.5.3 흐름 처리 키/값 쌍 사용 72

4.5.4 스트림 75 는 집계 패키지를 통해 사용됩니다.

4.6 병합기를 사용하여 성능 향상 80

옛 친구를 되새기고, 새로운 친구를 만나다

4.8 요약 84

4.9 더 많은 자원 84

5 장 고급 MapReduce 85

5. 1 연결된 MapReduce 작업 85

5.1..1순차 연결 MapReduce 작업 85

5. 1.2 복잡한 종속성이 있는 MapReduce 링크 86

5. 1.3 전처리 및 후처리 단계와의 연락 86

5.2 다른 출처의 데이터 링크 89

5.2. 1 이경소켓 90 연결

5.2.2 분산 캐시 98 기반 복제 연결

5.2.3 절반 연결: 지도 끝 필터링 후 reduce 측에서 10 1 을 연결합니다.

5.3 부룬 필터 102 를 만듭니다.

5.3. 1 블룸 필터 do 102?

5.3.2 부룬 필터 104 구현

5.3.3 bloom filter110 은 Hadoop 버전 0.20 이상에 적용됩니다.

5.4 옛 친구를 되새기고, 새로운 친구 +0 10 을 배우다

5.5 요약 1 1 1

5.6 더 많은 자원 1 12

제 6 장 프로그래밍 실습 1 13

6. 1 MapReduce 프로그램 개발

6.1..1로컬 모드 1 14

6. 1.2 의사 분포 패턴 1 18

6.2 프로덕션 클러스터 123 모니터링 및 디버깅

6.2. 1 카운터 123

6.2.2 잘못된 레코드 건너뛰기 125

6.2.3 IsolationRunner 를 사용하여 잘못된 작업 128 을 다시 실행합니다.

6.3 성능 튜닝 129

6.3. 1 병합기 129 를 통한 네트워크 트래픽 감소

6.3.2 입력 데이터 양 감소 129

6.3.3 압축 사용 129

6.3.4 JVM 132 재사용

6.3.5 추측에 따라 실행 132.

6.3.6 코드 리팩토링 및 알고리즘 재작성 133

6.4 요약 134

제 7 장 규칙 매뉴얼 135

7. 1 작업 사용자 정의 매개 변수를 작업 135 에 전달

7.2 탐사 임무 특정 정보 137

7.3 은 여러 개의 출력 파일 138 로 나뉩니다

7.4 데이터베이스를 입력으로 출력 143

7.5 출력 순서 유지 145

7.6 요약 146

8 장 Hadoop 147 관리

8. 1 실제 적용을 위한 특정 매개변수 값 설정 147.

8.2 시스템 건강 검진 149

8.3 권한 설정 15 1

8.4 할당량 관리 15 1

8.5 휴지통 사용 152

8.6 DataNode 152 삭제

8.7 DataNode 153 추가.

8.8 NameNode 및 SNN 153 관리

8.9 복구에 실패한 NameNode 155

8. 10 인식 네트워크 레이아웃 및 랙 설계 156

8. 1 1 다중 사용자 작업 일정 157

8.11..1다중 작업 추적 158

8. 1 1.2 공정 스케줄러 158

8. 12 요약 160

세 번째 부분은 해도팝도 미쳤다.

9 장 클라우드에서 Hadoop 162 실행

9. 1 아마존 네트워크 서비스 소개 162

9.2 AWS/kloc 설치-0/63

9.2. 1 AWS 인증 자격 증명 얻기 164.

9.2.2 명령줄 도구 얻기 166

SSH 키 쌍 168 을 준비합니다.

9.3 EC2 에 Hadoop 169 설치

9.3. 1 보안 매개변수 구성 169

9.3.2 클러스터 유형 구성 169

9.4 EC2 에서 MapReduce 프로그램 17 1 을 실행합니다.

9.4. 1 Hadoop 클러스터 17 1 으로 코드 전송.

9.4.2 Hadoop 클러스터 172 의 데이터에 액세스

9.5 EC2 인스턴스 비우기 및 닫기 175

9.6 아마존 유연한 MapReduce 및 기타 AWS 서비스 176

9.6. 1 아마존 탄성 MapReduce 176

9.6.2 AWS 수입/수출 177

9.7 요약 177

제 10 장 프로그래밍용 돼지 178

돼지처럼 생각하다

10. 1. 1 데이터 흐름 언어 179

10. 1.2 데이터 유형 179

10. 1.3 사용자 정의 함수 179

10.2 청관 설치 179

10.3 달리기 돼지 180

10.4 꾸르륵 돼지 라틴어 182 를 통해 배우기

10.5 돼지 라틴 186 에 대해 이야기하다

10.5. 1 데이터 유형 및 스키마 186

10.5.2 표현식과 함수 187

10.5.3 관계 연산자 189

10.5.4 최적화 수행

10.6 사용자 정의 함수 196

10.6. 1 UDF 196 사용.

10.6.2 UDF 쓰기

10.7 스크립트 199

10.7. 1 주 199

10.7.2 매개 변수 대체 200

10.7.3 다중 쿼리 실행 20 1

10.8 Pig 연습-특허 계산 20 1 의 예

10.9 요약 206

1 1 장 Hive 및 Hadoop 그룹 207

11..1벌집 207

11..1구성 단위 208 설치 및 구성.

11..1.2 쿼리 2 10 의 예

11..1.3 심층적인 HiveQL 2 13.

11..1.4 벌집 요약 22 1

1 1.2 기타 Hadoop 관련 섹션 22 1

11.2.1h base221

동물원 관리자 22 1

1 1.2.3 계단식 22 1

1 1.2.4 클라우드 시대 222

1 1.2.5 Katta 222

CloudBase 222

1 1.2.7 Aster 데이터 및 Greenplum 222

1 1.2.8 하마와 시청자 223

1 1.3 요약 223

12 장 사례 연구 224

12. 1 뉴욕 타임즈 1 1 백만 주식 사진 문서 변환 224

12.2 차이나 모바일 225 데이터 마이닝

12.3 StumbleUpon 229 최고의 웹 사이트 추천

12.3. 1 의 시작 배포 StumbleUpon 230

12.3.2 HBase 및 StumbleUpon 230

12. 3. 3 stumble upon 236 의 더 많은 Hadoop 애플리케이션

12.4 엔터프라이즈 쿼리 분석 시스템 구축-IBM 의 ES2 프로젝트 238

1 ES2 시스템 구조 240

12.4.2 ES2 파충류 24 1

12.4.3 ES2 분석 242

12.4.4 요약 249

참고 문헌 250

부록 A HDFS 파일 명령 25 1