국내외 Hadoop 적용 현황

문 | 주위

이 글은 "Hadoop 핵심 기술" 이라는 책에서 발췌한 것이다.

Hadoop 은 클라우드 컴퓨팅 분야뿐만 아니라 검색 엔진 서비스도 지원하는 오픈 소스, 효율적인 클라우드 컴퓨팅 기반 플랫폼입니다. Hadoop 은 검색 엔진의 기본 인프라 시스템으로 대량 데이터 처리, 데이터 마이닝, 기계 학습, 과학 컴퓨팅 등의 분야에서 점점 더 인기를 끌고 있습니다. 이 글은 Hadoop 의 국내외 응용 현황을 이야기할 것이다.

해외에서의 Hadoop 적용 현황

/Yahoo-0/. 미국 야후 (인터넷 정보 검색 서비스 제공)

야후는 Hadoop 의 최대 지지자이다. 20 12 까지 야후 Hadoop 노드의 총 수가 42 개를 넘었습니까? 000, Hadoop 을 실행하는 코어 CPU 가 65438 만 개 이상입니다. 최대 단일 마스터 클러스터에는 4500 개의 노드가 있습니다 (각 노드는 듀얼 채널 4 코어 CPUboxesw, 4× 1TB 디스크, 16GBRAM). 클러스터의 총 스토리지 용량은 350PB 를 초과하고 매월 제출된 작업 수는 654.38+백만 개를 초과합니다. Pig 에서 60% 이상의 Hadoop 작업이 Pig 에 의해 작성 및 제출됩니다.

야후의 Hadoop 애플리케이션은 주로 다음과 같은 측면을 포함한다.

광고 시스템 지원

사용자 행동 분석

네트워크 검색 지원

광학 콘텐츠 읽기

멤버 반남용

민첩한 콘텐츠

개인별 추천

동시에 Pig 연구 및 테스트는 초대형 노드 클러스터를 지원하는 Hadoop 시스템을 지원합니다.

2. 페이스북

페이스북은 Hadoop 을 사용하여 내부 로그와 다차원 데이터를 보고, 분석 및 기계 학습의 데이터 소스로 저장합니다. 현재 Hadoop 클러스터에는 1400 개 이상의 시스템 노드, * * * 1 1? 200 개의 코어 CPU 가 원래 15PB 의 스토리지 용량을 초과합니다. 각 상용 노드에는 8 코어 CPU 및 12TB 데이터 저장소가 장착되어 있으며 주로 StreamingAPI 및 JavaAPI 프로그래밍 인터페이스를 사용합니다. 한편 페이스북은 Hadoop 을 기반으로 Hive 라는 고급 데이터 웨어하우스 프레임워크를 구축했고, Hive 는 공식적으로 Hadoop 기반 Apache 의 1 급 프로젝트가 됐다. 또한 HDFS 의 신관 구현도 개발되었습니다.

3.A9.com

A9.com 은 Hadoop 을 사용하여 아마존을 위한 상품 검색 인덱스를 구축했으며, 주로 StreamingAPI, C++, Perl 및 Python 도구를 사용하며 Java 및 StreamingAPI 를 사용하여 매일 수백만 건의 대화를 분석하고 처리합니다. A9.com 이 아마존에 제공하는 인덱스 서비스는 Hadoop 클러스터에서 실행되며 약 100 개의 노드가 있습니다.

4. 벽돌 점토

Adobe 는 주로 Hadoop 과 HBase 를 사용하며 소셜 서비스 컴퓨팅, 구조화된 데이터 저장 및 처리를 지원하는 것과 동일합니다. 약 30 개 노드의 Hadoop-HBase 프로덕션 클러스터. Adobe 는 데이터를 HBase 에 직접 연속적으로 저장하고 HBase 를 데이터 소스로 MapReduce 작업 처리를 실행한 다음 실행 결과를 HBase 또는 외부 시스템에 직접 저장합니다. Adobe 는 2008 년 6 월 5 일부터 10 월 5 일까지 Hadoop 과 HBase 를 프로덕션 클러스터에 적용했습니다.

5.CbIR

2008 년 4 월부터 일본 CBIR (콘텐츠 기반 정보 검색) 은 AmazonEC2 에서 Hadoop 을 사용하여 이미지 제품 추천 시스템을 구축하는 이미지 처리 환경을 구축했습니다. Hadoop 환경을 사용하여 소스 데이터베이스를 생성하고, 웹 어플리케이션에 빠르게 액세스하고, Hadoop 를 사용하여 사용자 동작의 유사성을 분석합니다.

6. 데이터 차트

Datagraph 는 주로 Hadoop 을 활용하여 대량의 RDF 데이터 세트, 특히 Hadoop 인덱스 RDF 데이터를 일괄 처리합니다. Datagraph 는 또한 Hadoop 을 사용하여 고객을 위해 장기간 실행되는 오프라인 SPARQL 쿼리를 수행합니다. Datagraph 는 AmazonS3 및 Cassandra 를 사용하여 RDF 데이터의 입력 및 출력 파일을 저장하고 MapReduce-RDF Grid 를 기반으로 RDF 데이터를 처리하는 Ruby 프레임워크를 개발했습니다.

Datagraph 는 주로 Ruby, RDF.rb 및 자체 개발한 RDFgrid 프레임워크를 사용하여 RDF 데이터를 처리하며 주로 HadoopStreaming 인터페이스를 사용합니다.

7. 이베이

단일 클러스터는 532 노드 이상의 클러스터, 단일 노드 8 코어 CPU, 5.3PB 이상의 스토리지 용량입니다. MapReduce 의 Java 인터페이스, Pig 및 Hive 는 대규모 데이터 처리에 널리 사용되고 있으며 HBase 는 검색 최적화 및 연구에도 사용됩니다.

8. 국제 상업 기계 회사

IBM 블루 클라우드 회사도 Hadoop 을 사용하여 클라우드 인프라를 구축합니다. IBM 블루 클라우드는 Xen 및 PowerVM 을 통해 가상화된 Linux 운영 체제 이미지, Hadoop 병렬 워크로드 스케줄링, 자체 Hadoop 배포 및 대용량 데이터 솔루션 발표 등의 기술을 사용합니다.

9.Last.Fm

마지막으로. Fm 은 주로 차트 계산, 특허 출원, 로그 분석, A/B 테스트, 데이터 세트 통합 등에 사용됩니다. Hadoop 은 백만 곡 이상의 곡에 대한 대규모 오디오 특징 분석에도 사용됩니다.

노드에는 100 대 이상의 시스템이 있으며 클러스터 노드는 듀얼 쿼드 코어 Xeon l5520 @ 2.27ghz l5630 @ 2.13ghz, 24GB 메모리, 8TB(4×2TB) 로 구성됩니다

10. 비즈니스 대인 관계 네트워크

LinkedIn 에는 다양한 하드웨어 구성의 Hadoop 클러스터가 있습니다. 기본 클러스터 구성은 다음과 같습니다.

800 노드 클러스터, HP SL 170X 및 Westmere 기반 2×4 코어, 24GB 메모리, 6× 2TBSATA.

1900 노드 클러스터, Westmere 기반 초극세 HX8DTT 및 2×6 코어, 24GB 메모리, 6× 2TBSATA.

1400 노드 클러스터, SandyBridge 초 미세, 2×6 코어, 32GB 메모리, 6× 2TBSATA 기반.

사용되는 소프트웨어는 다음과 같습니다.

운영 체제는 RHEL6.3 을 사용합니다.

JDK 는 SUNJDK 1.6.0_32 를 사용합니다.

ApacheHadoop Hadoop0.20.2 및 ApacheHadoop 패치 1.0.4.

아즈카반과 아즈카반은 작업 스케줄링에 쓰인다.

Hive, Avro, 카푸카 등.

1 1. 모바일 분석 TV

Hadoop 은 주로 병렬화 알고리즘 분야에 사용되며 관련된 MapReduce 응용 알고리즘은 다음과 같습니다.

정보 검색 및 분석

기계 생성 컨텐츠-문서, 텍스트, 오디오, 비디오.

자연어 처리.

프로젝트 포트폴리오는 다음과 같습니다.

모바일 소셜 네트워크.

웹 크롤러.

텍스트를 음성으로 변환합니다.

오디오와 비디오의 자동 생성.

12.Openstat

Hadoop 은 주로 네트워크 로그 분석을 사용자 정의하고 보고서를 생성하는 데 사용됩니다. 프로덕션 환경에는 50 개 이상의 노드 클러스터 (듀얼 쿼드 코어 Xeon 프로세서, 16GB RAM, 4 ~ 6 개의 하드 드라이브), 맞춤형 분석을 위한 비교적 작은 클러스터 2 개, 하루 약 500 만 개의 이벤트 처리, 월 654 억 38+050 억 달러 거래 데이터 클러스터는 매일 약 25GB 의 보고서를 생성합니다.

사용되는 기술은 주로 CDH, 계단식 및 Janino 입니다.

13. 양자 방송

CPU 코어 3000 개, 스토리지 3500TB, 매일 1PB 이상의 데이터 처리, 완전 맞춤형 데이터 경로 및 시퀀서의 Hadoop 스케줄러를 사용하여 KFS 파일 시스템에 탁월한 기여를 했습니다.

14. 라플리프

80 개 이상의 노드 클러스터 (노드당 듀얼 코어 CPU 2 개, 2TB×8 스토리지,16GB RAM); Hadoop 과 Hive 는 주로 웹에서 개인 데이터를 처리하고 각 처리 단계의 데이터 흐름을 단순화하기 위해 캐스케이드를 도입하는 데 사용됩니다.

15. 세계 전문 용어

하드웨어당 44 대 이상의 서버 (서버당 듀얼 코어 CPU 2 개, 2TB 스토리지, 8GB 메모리), 서버당 Xen 실행. Hadoop/HBase 를 실행하는 가상 시스템 인스턴스를 시작하고 웹 또는 애플리케이션 서버를 실행하는 가상 시스템 인스턴스를 시작하면 88 개의 가상 시스템을 사용할 수 있습니다. 각각 22 개의 노드가 있는 2 개의 독립 실행형 Hadoop/HBase 클러스터를 실행합니다. Hadoop 은 주로 HBase 및 MapReduce 작업 실행, HBase 데이터 테이블 스캔, 특정 작업 수행에 사용됩니다. 확장 가능한 고속 스토리지 백엔드인 HBase 는 수백만 개의 문서를 저장하는 데 사용됩니다. 현재 12 만 개의 문서를 저장하고 있으며, 최근 목표는 4 억 5 천만 개의 문서를 저장하는 것입니다.

16. 글래스고 대학의 TerrierTeam

각각 XeonQuadCore2.4GHz, 4GB 메모리, 1TB 스토리지가 장착된 30 개 이상의 노드에 대한 실험 클러스터 1 개. Hadoop 을 사용하여 정보 검색 연구 및 실험, 특히 TREC 및 TerrierIR 플랫폼을 추진합니다. Terrier 의 오픈 소스 릴리스에는 HadoopMapReduce 기반의 대규모 분산 색인이 포함되어 있습니다.

17. 네브라스카 대학교 네덜란드 컴퓨팅 센터

중간 규모의 Hadoop 클러스터 (* * * 1.6PB 스토리지) 를 실행하고 물리적 데이터를 저장 및 제공하며 컴팩트한 μ 자 나선형 스펙트럼 (CMS) 실험의 계산을 지원합니다. 이를 위해서는 파일 시스템 지원이 필요하며, 몇 Gbps 속도로 데이터를 다운로드하고 더 빠른 속도로 데이터를 처리할 수 있습니다.

18. 시각적 조치

Hadoop 은 확장 가능한 데이터 파이프의 구성 요소로서 VisibleSuite 와 같은 제품에 사용됩니다. Hadoop 을 사용하여 온라인 비디오 시청자의 시청 동작과 관련된 데이터 스트림을 요약, 저장 및 분석합니다. 현재 그리드에는 128 개 이상의 CPU 코어와 100TB 이상의 스토리지가 포함되어 있으며 대폭 확장할 계획입니다.

중국의 하독 적용 현황

Hadoop 의 국내 응용은 주로 인터넷 회사이다. 다음은 주로 Hadoop 을 사용하거나 Hadoop 을 대규모로 연구하는 회사를 소개한다.

1. 바이두

바이두는 2006 년부터 Hadoop 에 관심을 기울이고 조사와 사용을 시작했다. 20 12 년, 총 클러스터 규모는 거의 10 개, 단일 클러스터에는 2800 개 이상의 시스템 노드, Hadoop 시스템에는 수만 대가 있습니다. 총 스토리지 용량이 100PB 를 초과하고 74PB 이상이 사용되었습니다. 매일 제출된 작업의 수는 수천 개이며 매일 입력된 데이터의 양은 7500TB 를 초과합니다.

바이두의 Hadoop 클러스터는 회사 전체의 데이터 팀, 대규모 검색 팀, 커뮤니티 제품 팀, 광고 팀, LBS 그룹에 통합 컴퓨팅 및 스토리지 서비스를 제공합니다. 주요 애플리케이션은 다음과 같습니다.

데이터 마이닝 및 분석

로그 분석 플랫폼.

데이터 웨어하우스 시스템.

엔진 시스템을 추천합니다.

사용자 행동 분석 시스템.

동시에 바이두는 Hadoop 을 기반으로 자체 로그 분석 플랫폼, 데이터 웨어하우징 시스템 및 통합 C++ 프로그래밍 인터페이스를 개발하고 Hadoop 을 심도 있게 개조하여 HadoopC++ 확장 HCE 시스템을 개발했습니다.

알리바바

20 12 까지 알리바바의 Hadoop 클러스터에는 약 3200 대의 서버, 약 30 대가 있습니까? 000 물리적 CPU 코어, 총 메모리 100TB, 총 스토리지 용량 60PB 이상, 일일 작업 수가 150 을 초과합니까? 000, hivequery 쿼리 하루 평균 6000 회 이상, 하루 평균 스캔 데이터 양 약 7.5PB, 하루 평균 스캔 파일 수 약 4 억 개, 스토리지 활용도 약 80%, CPU 활용도 평균 65%, 최고 80% 에 달한다. 알리바바의 Hadoop 클러스터는 150 명의 사용자 기반과 4,500 명의 클러스터 사용자를 보유하고 있으며 타오바오, 티몰, 도예, 집합적 비용, CBU, 알리페이를 위한 기본 컴퓨팅 및 스토리지 서비스를 제공합니다. 주요 응용 프로그램은 다음과 같습니다.

데이터 플랫폼 시스템.

지원을 검색합니다.

광고 시스템.

데이터 큐브.

양자통계학.

데이터 검색

엔진 시스템을 추천합니다.

검색 순위.

개발을 용이하게 하기 위해 WebIDE 는 Hive, Pig, Mahout, Hbase 등을 사용하는 개발 환경을 계승했습니다.

3. 텐센트

텐센트도 국내 최초로 Hadoop 을 사용한 인터넷 회사 중 하나이다. 20 12 년 말 현재 텐센트는 5000 대 이상의 Hadoop 클러스터기를 보유하고 있으며, 최대 단일 클러스터는 약 2,000 개 노드입니다. 또한 Hadoop-Hive 를 사용하여 자체 데이터 웨어하우스 시스템 TDW 를 구축하고 자체 TDW IDE 기본 개발 환경을 개발했습니다. Tencent 의 Hadoop 은 Tencent 제품 라인에 기본적인 클라우드 컴퓨팅 및 클라우드 스토리지 서비스를 제공하며 다음 제품을 지원합니다.

텐센트 소셜 광고 플랫폼.

소소.

그물을 치다.

텐센트 웨이보.

텐센트 나침반.

QQ 회원.

텐센트 게임 지원.

QQ 공간.

친구. Com

텐센트 오픈 플랫폼.

재물이 통하다.

휴대폰 QQ.

QQ 음악.

4. 기호 360

기호 360 은 주로 Hadoop-HBase 를 검색 엔진 so.com 의 기본 웹 스토리지 아키텍처 시스템으로 사용하며, 360 은 수천억 개의 레코드를 검색할 수 있으며, 데이터 양은 PB 수준에 이른다. 20 12 년 말 현재 HBase 클러스터에는 300 개 이상의 노드가 있으며 지역 수는 65438 만 개 이상입니다. 사용되는 플랫폼 버전은 다음과 같습니다.

HBase 버전: facebook0.89-fb.

HDFS 버전: facebookHadoop-20.

Hadoop-HBase 에서 기호 360 의 작업은 주로 HBase 클러스터의 시작 및 종료 시간을 최적화하고 단축하며 RS 가 비정상적으로 종료된 후 복구 시간을 최적화하고 줄이는 것입니다.

5. 화웨이

화웨이도 Hadoop 의 주요 기여자 중 한 명으로 구글과 씨스코 앞에 올랐다. 화웨이는 Hadoop 의 HA 방안 및 HBase 분야에 대해 심도 있는 연구를 실시하고 Hadoop 기반 대용량 데이터 솔루션을 업계에 출시했습니다.

6. 차이나 모바일

차이나 모바일 20 10 년 5 월 BigCloud 1.0 공식 출시, 클러스터 노드 1024 도달. 차이나 모바일 대운 해동 기반 마푸레는 분산 컴퓨팅, HDFS 를 통한 분산 스토리지 구현, Hadoop 기반 데이터 웨어하우스 시스템 허기테이블 개발, 병렬 데이터 마이닝 툴 세트 BC-PDM, 병렬 데이터 추출 및 변환 BC-ETL, 개체 스토리지 시스템 BC-ONestd

차이나 모바일 (WHO) 는 주로 통신 분야에 Hadoop 를 적용하는데, 프로그램 애플리케이션 분야는 다음과 같습니다.

KPI 중앙 집중식 운영.

서브시스템 ETL/DM.

결제 시스템.

신호 시스템.

클라우드 컴퓨팅 리소스 풀 시스템

사물의 인터넷 응용 시스템.

이메일.

IDC 서비스 등.

7. 반고 검색

반고 검색 (현재 인스턴트 검색과 중국 검색으로 통합) 은 주로 Hadoop 클러스터를 검색 엔진의 인프라 지원 시스템으로 사용합니다. 20 13 초까지 클러스터 내 총 시스템 수는 380 대 이상, 총 스토리지 3.66PB 로 주로 다음 애플리케이션을 포함했습니다.

웹 스토리지.

웹 페이지 분석.

색인.

Pagerank 계산.

로그 통계 분석.