1 장 Hadoop 2 소개
1. 1 왜 하닷컴 전투 3 을 써요
1.2 Hadoop 3 이란 무엇입니까?
1.3 분산 시스템 및 Hadoop 4 이해
1.4 SQL 데이터베이스와 Hadoop 5 비교
1.5 MapReduce 6 이해
1.5. 1 간단한 프로그램의 수동 확장 7
1. 5. 2 MapReduce 9 의 동일한 프로그램 확장
1.6 Hadoop 으로 단어 계산-첫 번째 프로그램 1 1 을 실행합니다.
1.7 Hadoop 히스토리 15
1.8 요약 16
1.9 자원 16
2 장 Hadoop 17 이해
2. 1 Hadoop 빌딩 블록 17
2.1..1명명된 노드 17
2. 1.2 데이터 노드 18
2. 1.3 2 차 NameNode 19
2. 1.4 작업 추적 19
2. 1.5 임무 추적자 19
2.2 Hadoop 클러스터용 SSH 2 1 설치
2.2. 1 공용 계정 정의 2 1.
2.2.2 SSH 설치 확인 2 1
2.2.3 SSH 키 쌍 생성 2 1
2.2.4 공개 키 배포 및 로그인 인증 22
2.3 Hadoop 실행 22
2.3. 1 로컬 (독립형) 모드 23
2.3.2 의사 분포 패턴 24
2.3.3 완전 분배 모델 25
2.4 웹 기반 클러스터 사용자 인터페이스 28
2.5 요약 30
3 장 Hadoop 구성 요소 3 1
3. 1 HDFS 파일 작업 3 1
3.1..1기본 파일 명령 32
3. 1.2 프로그래밍 읽기 및 쓰기 HDFS 35
3.2 MapReduce 프로그램 분석 37
3.2. 1 Hadoop 데이터 유형 39
3.2.2 매퍼 40
3.2.3 감속기 4 1
3.2.4 파티션: 리디렉션 매퍼 출력 4 1.
3.2.5 통합기: 로컬 복원 43
3.2.6 미리 정의된 매퍼 및 감소기 클래스의 단어 수 43
3.3 읽기와 쓰기 43
입력 형식 44
출력 형식 49
3.4 요약 50
2 부 실전
4 장 MapReduce Basic 프로그램 작성 52
4. 1 특허 데이터 세트 얻기 52
4.1..1특허 참조 데이터 53
4. 1.2 특허 설명 데이터 54
4.2 MapReduce 프로그램 구축을 위한 기본 템플릿 55
4.3 카운트 60
4.4 Hadoop API 64 의 변화에 적응
4.5 Hadoop 스트림 67
4.5. 1 Unix 명령을 통한 스트림 68 사용
4.5.2 스크립트를 통한 스트림 사용 69
4.5.3 흐름 처리 키/값 쌍 사용 72
4.5.4 스트림 75 는 집계 패키지를 통해 사용됩니다.
4.6 병합기를 사용하여 성능 향상 80
옛 친구를 되새기고, 새로운 친구를 만나다
4.8 요약 84
4.9 더 많은 자원 84
5 장 고급 MapReduce 85
5. 1 연결된 MapReduce 작업 85
5.1..1순차 연결 MapReduce 작업 85
5. 1.2 복잡한 종속성이 있는 MapReduce 링크 86
5. 1.3 전처리 및 후처리 단계와의 연락 86
5.2 다른 출처의 데이터 링크 89
5.2. 1 이경소켓 90 연결
5.2.2 분산 캐시 98 기반 복제 연결
5.2.3 절반 연결: 지도 끝 필터링 후 reduce 측에서 10 1 을 연결합니다.
5.3 부룬 필터 102 를 만듭니다.
5.3. 1 블룸 필터 do 102?
5.3.2 부룬 필터 104 구현
5.3.3 bloom filter110 은 Hadoop 버전 0.20 이상에 적용됩니다.
5.4 옛 친구를 되새기고, 새로운 친구 +0 10 을 배우다
5.5 요약 1 1 1
5.6 더 많은 자원 1 12
제 6 장 프로그래밍 실습 1 13
6. 1 MapReduce 프로그램 개발
6.1..1로컬 모드 1 14
6. 1.2 의사 분포 패턴 1 18
6.2 프로덕션 클러스터 123 모니터링 및 디버깅
6.2. 1 카운터 123
6.2.2 잘못된 레코드 건너뛰기 125
6.2.3 IsolationRunner 를 사용하여 잘못된 작업 128 을 다시 실행합니다.
6.3 성능 튜닝 129
6.3. 1 병합기 129 를 통한 네트워크 트래픽 감소
6.3.2 입력 데이터 양 감소 129
6.3.3 압축 사용 129
6.3.4 JVM 132 재사용
6.3.5 추측에 따라 실행 132.
6.3.6 코드 리팩토링 및 알고리즘 재작성 133
6.4 요약 134
제 7 장 규칙 매뉴얼 135
7. 1 작업 사용자 정의 매개 변수를 작업 135 에 전달
7.2 탐사 임무 특정 정보 137
7.3 은 여러 개의 출력 파일 138 로 나뉩니다
7.4 데이터베이스를 입력으로 출력 143
7.5 출력 순서 유지 145
7.6 요약 146
8 장 Hadoop 147 관리
8. 1 실제 적용을 위한 특정 매개변수 값 설정 147.
8.2 시스템 건강 검진 149
8.3 권한 설정 15 1
8.4 할당량 관리 15 1
8.5 휴지통 사용 152
8.6 DataNode 152 삭제
8.7 DataNode 153 추가.
8.8 NameNode 및 SNN 153 관리
8.9 복구에 실패한 NameNode 155
8. 10 인식 네트워크 레이아웃 및 랙 설계 156
8. 1 1 다중 사용자 작업 일정 157
8.11..1다중 작업 추적 158
8. 1 1.2 공정 스케줄러 158
8. 12 요약 160
세 번째 부분은 해도팝도 미쳤다.
9 장 클라우드에서 Hadoop 162 실행
9. 1 아마존 네트워크 서비스 소개 162
9.2 AWS/kloc 설치-0/63
9.2. 1 AWS 인증 자격 증명 얻기 164.
9.2.2 명령줄 도구 얻기 166
SSH 키 쌍 168 을 준비합니다.
9.3 EC2 에 Hadoop 169 설치
9.3. 1 보안 매개변수 구성 169
9.3.2 클러스터 유형 구성 169
9.4 EC2 에서 MapReduce 프로그램 17 1 을 실행합니다.
9.4. 1 Hadoop 클러스터 17 1 으로 코드 전송.
9.4.2 Hadoop 클러스터 172 의 데이터에 액세스
9.5 EC2 인스턴스 비우기 및 닫기 175
9.6 아마존 유연한 MapReduce 및 기타 AWS 서비스 176
9.6. 1 아마존 탄성 MapReduce 176
9.6.2 AWS 수입/수출 177
9.7 요약 177
제 10 장 프로그래밍용 돼지 178
돼지처럼 생각하다
10. 1. 1 데이터 흐름 언어 179
10. 1.2 데이터 유형 179
10. 1.3 사용자 정의 함수 179
10.2 청관 설치 179
10.3 달리기 돼지 180
10.4 꾸르륵 돼지 라틴어 182 를 통해 배우기
10.5 돼지 라틴 186 에 대해 이야기하다
10.5. 1 데이터 유형 및 스키마 186
10.5.2 표현식과 함수 187
10.5.3 관계 연산자 189
10.5.4 최적화 수행
10.6 사용자 정의 함수 196
10.6. 1 UDF 196 사용.
10.6.2 UDF 쓰기
10.7 스크립트 199
10.7. 1 주 199
10.7.2 매개 변수 대체 200
10.7.3 다중 쿼리 실행 20 1
10.8 Pig 연습-특허 계산 20 1 의 예
10.9 요약 206
1 1 장 Hive 및 Hadoop 그룹 207
11..1벌집 207
11..1구성 단위 208 설치 및 구성.
11..1.2 쿼리 2 10 의 예
11..1.3 심층적인 HiveQL 2 13.
11..1.4 벌집 요약 22 1
1 1.2 기타 Hadoop 관련 섹션 22 1
11.2.1h base221
동물원 관리자 22 1
1 1.2.3 계단식 22 1
1 1.2.4 클라우드 시대 222
1 1.2.5 Katta 222
CloudBase 222
1 1.2.7 Aster 데이터 및 Greenplum 222
1 1.2.8 하마와 시청자 223
1 1.3 요약 223
12 장 사례 연구 224
12. 1 뉴욕 타임즈 1 1 백만 주식 사진 문서 변환 224
12.2 차이나 모바일 225 데이터 마이닝
12.3 StumbleUpon 229 최고의 웹 사이트 추천
12.3. 1 의 시작 배포 StumbleUpon 230
12.3.2 HBase 및 StumbleUpon 230
12. 3. 3 stumble upon 236 의 더 많은 Hadoop 애플리케이션
12.4 엔터프라이즈 쿼리 분석 시스템 구축-IBM 의 ES2 프로젝트 238
1 ES2 시스템 구조 240
12.4.2 ES2 파충류 24 1
12.4.3 ES2 분석 242
12.4.4 요약 249
참고 문헌 250
부록 A HDFS 파일 명령 25 1