기술이 발전함에 따라 세계는 매일 끊임없이 데이터를 생성하고 있다. 빅데이터 개념이 제기됨에 따라 이 기술은 점차 하나의 산업으로 발전하여 끊임없이 주목을 받고 있다. 그렇다면 빅 데이터 산업의 미래 발전은 어떤가? 빅 데이터 기술의 미래 발전 추세를 예측하는 세 가지 방향:
(A) 소셜 네트워크와 사물인터넷 기술은 데이터 수집을 위한 기술 채널을 확대했다.
산업 정보화 건설 이후 의료 교통 금융 등 분야에 많은 내부 데이터가 축적되어 큰 데이터 자원의' 재고' 를 구성하였다. 모바일 인터넷과 사물인터넷의 발전은 빅데이터 수집 채널을 크게 풍요롭게 했다. 외부 소셜 네트워크, 웨어러블 장비, 자동차 네트워킹, 사물인터넷, 정부 오픈 정보 플랫폼의 데이터가 빅 데이터 증분 데이터 자원의 주체가 됩니다. 현재 모바일 인터넷의 심도 있는 보급은 대용량 데이터 애플리케이션을 위한 풍부한 데이터 소스를 제공합니다.
게다가, 빠르게 발전하는 사물인터넷은 점점 더 중요한 대형 데이터 자원 공급자가 될 것이다. 웨어러블, 자동차 네트워킹 등 다양한 데이터 수집 터미널을 통해 직접 수집한 데이터 자원은 기존 인터넷의 혼란스러운 데이터와 저가치 밀도보다 더 가치가 있습니다. 예를 들어, 스마트 웨어러블 장비는 몇 년 동안 발전해 왔으며, 스마트 팔찌, 손목 밴드, 손목시계 등 웨어러블 장비가 성숙해지고 있으며, 스마트 열쇠고리, 자전거, 젓가락 등 장비가 속출하고 있으며, 외국에는 인텔 구글, 페이스북, 국내에는 바이두, JD.COM, 샤오미 등이 있다.
기업 내 데이터는 여전히 큰 데이터의 주요 원천이지만 외부 데이터에 대한 수요가 갈수록 커지고 있다. 현재 기업의 32% 가 외부에서 데이터를 구매하고 있습니다. 18% 의 기업만이 정부 오픈 데이터를 사용합니다. 어떻게 큰 데이터 자원 건설을 추진하고, 데이터 품질을 향상시키고, 국경을 넘나드는 통합과 유통을 촉진하는 것은 큰 데이터 응용의 진일보한 발전을 촉진하는 중요한 문제 중 하나이다.
전반적으로 각 업종은 기존 자원 활용을 바탕으로 신흥 데이터 수집의 기술 채널을 적극적으로 확대하고 증분 자원을 개발하기 위해 노력하고 있습니다. 소셜 미디어와 사물인터넷은 데이터 수집의 잠재적 채널을 크게 풍요롭게 한다. 이론적으로 데이터 수집은 점점 더 쉬워질 것이다.
(b) 분산 스토리지 및 컴퓨팅 기술은 대규모 데이터 처리를 위한 견고한 기술 기반을 제공합니다.
대용량 데이터 저장 및 컴퓨팅 기술은 전체 대형 데이터 시스템의 기초입니다.
스토리지의 경우, 2000 년 전후로 구글과 같은 사람들이 제안한 파일 시스템 (GFS) 과 후속 Hadoop 분산 파일 시스템 (HDFS) 은 대용량 데이터 스토리지 기술의 토대를 마련했습니다.
GFS/HDFS 는 기존 시스템에 비해 컴퓨팅 및 스토리지 노드를 물리적으로 결합함으로써 데이터 사용량이 많은 컴퓨팅에서 쉽게 형성되는 I/O 처리량 제한을 방지합니다. 이와 함께 분산 스토리지 시스템의 파일 시스템도 분산 아키텍처를 사용하여 높은 동시 액세스를 가능하게 합니다.
컴퓨팅의 경우, 구글이 2004 년에 발표한 MapReduce 분산 병렬 컴퓨팅 기술은 새로운 분산 컴퓨팅 기술의 대표입니다. MapReduce 시스템은 저렴한 범용 서버로 구성되어 있다. 서버 노드를 추가하면 시스템의 총 처리 능력을 선형적으로 확장할 수 있어 비용과 확장성에 큰 이점이 있습니다.
(3) 심도 신경망 등 신흥 기술이 빅 데이터 분석 기술의 새로운 시대를 열었다.
빅 데이터 분석 기술은 일반적으로 온라인 분석 처리 (OLAP) 와 데이터 마이닝의 두 가지 범주로 나뉩니다.
OLAP 기술, 일반적으로 사용자 기반 가정, 큐브에 대한 대화식 데이터 세트 쿼리, 연결 등의 작업 (일반적으로 SQL 문 사용) 을 통해 이러한 가정을 검증하여 연역적 추리의 사고 방식을 나타냅니다.
데이터 마이닝 기술은 일반적으로 대량 데이터에서 모델을 적극적으로 검색하고, 데이터에 숨겨진 패턴을 자동으로 개발하며, 귀납적 사고 방식을 나타냅니다.
기존의 데이터 마이닝 알고리즘은 주로 다음과 같습니다.
(1) 클러스터 (그룹 분석이라고도 함) 는 데이터 세트를 유사점과 차이점에 따라 여러 범주로 나누는 연구 (샘플 또는 지표) 분류를 위한 통계 분석 방법입니다. 같은 범주에 속하는 데이터 간의 유사성은 매우 크지만, 서로 다른 범주에 속한 데이터 간의 유사성은 매우 적고, 서로 다른 범주에 속한 데이터 간의 연관성은 매우 낮습니다. 클러스터 분석 알고리즘을 통해 기업은 고객을 그룹화하고, 고객 집단의 행동 특성을 모르는 상태에서 여러 차원에서 고객 데이터를 그룹화한 다음 그룹화된 고객을 피쳐 추출 및 분석하여 고객의 특성을 파악하고 해당 제품 및 서비스를 추천할 수 있습니다.
(2) 클러스터링과 유사한 분류이지만 목적은 다릅니다. 분류는 클러스터의 사전 생성된 모델을 사용하거나 경험적 데이터를 통해 데이터 객체 그룹의 유사성을 찾아 데이터를 여러 클래스로 나눌 수 있습니다. 그 목적은 분류 모델을 통해 데이터 항목을 지정된 범주에 매핑하는 것입니다. 즉, 알고리즘은 CART (분류 회귀 트리) 입니다. 기업은 사용자, 제품, 서비스 등의 업무 데이터를 분류하고, 분류를 모델링한 다음, 새로운 데이터를 예측 분석하여 기존 범주에 속하도록 할 수 있습니다. 분류 알고리즘은 비교적 성숙하고 분류 정확도는 비교적 높다. 고객의 정확한 포지셔닝, 마케팅, 서비스에 대한 예측 능력이 뛰어나 기업의 의사 결정에 도움이 됩니다.
(3) 회귀, 데이터 속성 값의 특성 반영, 함수를 통한 데이터 매핑 관계 표현, 속성 값 간의 목록 관계 찾기 데이터 시퀀스의 예측 및 관련성 연구에 적용할 수 있습니다. 기업은 회귀 모델을 이용하여 시장 판매 상황을 분석하고 예측하고 적시에 전략 조정을 할 수 있다. 위험 예방과 부정 방지 분야에서도 회귀 모델을 사용하여 경고를 할 수 있습니다.
전통적인 데이터 접근 방식은 기존의 OLAP 기술이든 데이터 마이닝 기술이든 대용량 데이터의 과제를 해결하기 어렵습니다. 첫 번째는 비효율적 인 구현입니다. 기존의 데이터 마이닝 기술은 중앙 집중식 기본 소프트웨어 아키텍처를 기반으로 개발되어 병렬화하기 어려우므로 테라바이트급 이상의 데이터를 처리하는 것이 비효율적입니다. 둘째, 데이터의 양이 증가하면 데이터 분석의 정확성을 높이기가 어렵습니다. 특히 구조화되지 않은 데이터를 처리하는 경우에는 더욱 그렇습니다.
모든 인간 디지털 데이터 중 아주 작은 부분 (총 데이터의 약 1%) 만 깊이 분석 및 마이닝 (예: 회귀, 분류 및 클러스터링) 되었습니다. 대형 인터넷 회사는 웹 인덱스, 소셜 데이터 등 반정형 데이터에 대한 얕은 분석 (예: 정렬) 을 실시하여 음성, 사진, 비디오 등 총량의 약 60% 를 차지하는 구조화되지 않은 데이터를 효과적으로 분석하기가 어렵다.
따라서 빅 데이터 분석 기술의 발전은 두 가지 측면에서 돌파구를 마련해야 한다. 하나는 대량의 구조화 및 반정형 데이터에 대한 효율적이고 심층적인 분석을 통해 의미, 감정, 의도 등을 이해하고 인식하는 것과 같은 암묵적인 지식을 발굴하는 것입니다. 자연어로 구성된 텍스트 웹 페이지 두 번째는 구조화되지 않은 데이터를 분석하여 크고 복잡한 다중 소스 음성, 이미지, 비디오 데이터를 기계가 인식할 수 있는 의미 있는 정보로 변환한 다음 유용한 지식을 추출하는 것입니다.
현재 심도 신경망 등 신흥 기술로 대표되는 빅 데이터 분석 기술이 어느 정도 발전하고 있다.
신경 네트워크는 자기 처리, 분산 스토리지 및 내결함성이 높은 첨단 인공 지능 기술입니다. 비선형 및 흐림, 불완전 및 부정확한 지식이나 데이터를 처리하는 데 적합하며 대규모 데이터 마이닝 문제를 해결하는 데 적합합니다.
일반적인 신경망 모델은 크게 세 가지 범주로 나뉩니다. 첫 번째 범주는 예측 및 패턴 인식을 분류하는 데 사용되는 피드 포워드 신경망 모델로, 주로 기능 네트워크와 센서로 표시됩니다. 두 번째 범주는 Lenovo 메모리 및 최적화 알고리즘의 피드백 신경망 모델로, Hopfield 의 이산 모델과 연속 모델로 표시됩니다. 세 번째 범주는 클러스터를 위한 자체 구성 매핑 방법으로 ART 모델로 표시됩니다. 그러나 신경 네트워크의 모델과 알고리즘은 많지만 특정 분야의 데이터 마이닝에서 사용되는 모델과 알고리즘에는 일관된 규칙이 없으므로 네트워크의 학습 및 의사 결정 프로세스를 이해하기가 어렵습니다.
인터넷과 기존 산업이 융합됨에 따라 웹 데이터의 발굴과 분석은 수요 분석과 시장 예측의 중요한 부분이 되었습니다. 웹 데이터 마이닝은 문서 구조 및 사용 컬렉션에서 숨겨진 매핑 프로세스를 찾을 수 있는 포괄적인 기술입니다.
현재, PageRank 알고리즘은 광범위한 연구와 응용을 받았다. PageRank 는 Google 알고리즘의 중요한 부분입니다. 2006 년 9 월 구글 창업자 중 한 명인 래리 페이지 (Larry Page) 의 이름을 따서 미국 특허를 받았습니다. PageRank 는 한 사이트의 외부 링크와 내부 링크의 수와 품질을 기준으로 이 사이트의 가치를 측정합니다. 이 개념의 영감은 학술 연구의 한 현상에서 비롯된다. 즉, 한 논문이 인용되는 빈도가 높을수록 일반적으로 그 논문의 권위성과 질이 높다고 판단한다.
데이터 마이닝 및 분석은 업계 및 기업에서 강력한 특성을 가지고 있다는 점을 지적해야 합니다. 몇 가지 기본적인 데이터 분석 도구 외에도 구체적이고 일반적인 모델링 및 분석 도구가 부족합니다. 각 업종과 기업은 자신의 업무에 따라 구체적인 데이터 모델을 구축해야 한다. 데이터 분석 모델을 구축하는 능력은 여러 기업이 대규모 데이터 경쟁에서 승리하는 열쇠가 됩니다.