현재 위치 - 법률 상담 무료 플랫폼 - 온라인 법률 자문 - 빅 데이터 기반의 지질 데이터 정보 저장 아키텍처 설계
빅 데이터 기반의 지질 데이터 정보 저장 아키텍처 설계
연진회 후진효

(간쑤 성 토지 자원 정보 센터)

우리나라 지질자료 정보 서비스의 클러스터화 산업화를 추진하기 위해 지질자료 정보의 가치를 충분히 발휘하기 위해, 이 글은 우리나라의 기존 지질자료 정보 클러스터화 서비스 플랫폼의 결함과 문제를 겨냥하여, 기존 시스템 스토리지 아키텍처를 기초로 큰 데이터 아래 지질자료 정보의 저장 아키텍처를 설계하여 우리나라 지질자료 정보 서비스의 클러스터화 산업화가 빅데이터 시대의 데이터 저장에 적응할 수 있게 하였다.

키워드 빅 데이터 지질 데이터 저장소 NoSQL 이중 데이터베이스

0 소개

신중국이 설립된 지 60 여 년 만에 우리나라는 방대한 지질 정보를 형성하여 국민 경제와 사회 발전에 중요한 지지를 제공하였다. 그러나 지질 데이터 관리 중장기 정보 분산, 종합 연구 부족, 디지털화 및 정보화 수준 저하, 서비스 채널 불량, 서비스 능력 부족 등의 문제가 있어 지질 자료 정보의 막대한 잠재적 가치를 충분히 발휘하지 못하고 있다. 지질업무 서비스 국민 경제와 사회 발전 능력을 더욱 높이기 위해 지질자료 정보의 서비스 기능을 충분히 발휘하고 서비스 분야를 넓히고 국토자원부는 국내외 지질업무의 선진 경험을 바탕으로 지질자료 정보 서비스 클러스터화 산업화를 전면적으로 추진한다.

현재 전국 각 성 지질 기록 보관소는 본 성의 성과, 원시, 실물 지질 자료를 체계적으로 정리하고 중요한 지질 자료를 디지털화하여 보존하고 있다. 그러나, 우리나라의 지질자원이 풍부하기 때문에 수십 년간의 축적을 거쳐 이미 대량의 지질데이터를 형성하였으며, 데이터의 양은 이미 수백 테라바이트를 넘어섰다. 지질 데이터 정보 서비스를 클러스터링하는 과정에서 데이터 양이 증가함에 따라 기존의 데이터 저장 및 관리 시스템은 필연적으로 스토리지 검색 및 시스템 관리의 부족을 드러낼 수 있습니다. 이 문제를 해결하기 위해서는 대규모 지질 데이터 저장을 위해 보다 발전된 데이터 스토리지 아키텍처를 설계해야 합니다.

최근 몇 년 동안 클라우드 컴퓨팅 분야의 새로운 데이터로서, NoSQL 은 대용량 데이터를 저장하고 관리하는 데 적합한 비관계형 데이터베이스인 NOSQL 을 사용하여 대규모 데이터를 저장하고 관리하는 과학 기술 종사자들이 지속적으로 연구하고 있습니다. 이 글은 우리나라의 기존 지질 데이터 정보 클러스터 서비스 플랫폼의 결함과 문제를 겨냥하여, 대형 데이터 스토리지 관리 모델의 사상을 이용하여 대량의 지질 데이터 스토리지 아키텍처를 제시하고, 기존 시스템 스토리지 아키텍처를 개선하여 우리나라 지질 데이터 정보 서비스의 전면적인 산업화를 촉진시켰다.

1 의 작업 상태

1..1국내외 지질 정보 저장 현황

미국에는 두 가지 주요 지질 데이터 공공 서비스 플랫폼인 ESIC (Earth Science Information Center) 와 EROS (Earth Resource Observation and Science Center) 가 있어 사회와 정부에 보다 편리하고 빠른 지질 정보 서비스를 제공하도록 설계되었습니다. 1990 년대 초에 오스트레일리아는 고급 과학적 방법과 기술을 사용하여 데이터를 저장함으로써 2 세대 오스트레일리아 육지 지질도를 형성하는 국가 지질과학 제도 협정을 발표했습니다.

현재 우리나라 지질자료 정보 서비스 클러스터화 산업화 작업이 막 시작되었지만 국토자원부 정보센터는 지질자료 정보 클러스터화 서비스 플랫폼을 개발하여 각지의 사용자들이 이 시스템을 사용하는 것을 제창했다. 그러나 전 세계의 초기 작업 배경이 다르기 때문에 주로 Access, SQL Server, Oracle, MySQL 등 각지에서 사용되는 스토리지 시스템도 다릅니다. 이 문서에서는 국토자원부 정보센터에서 개발한 지질 데이터 정보 클러스터 서비스 플랫폼 스토리지 시스템 MySQL 을 예로 들어 설명합니다. 이 시스템은 관계형 데이터베이스 관리 시스템인 MySQL 을 기반으로 하는 분산 스토리지 및 검색 시스템입니다. 이 시스템의 배치는 우리나라 지질자료 정보 서비스 클러스터화 산업화에 중대한 진전을 이루었고, 우리나라 표준화 통일된 지질자료 정보 공유 서비스 플랫폼과 상호 연결된 네트워크 서비스 체계를 구축하기 위한 든든한 토대를 마련했다. 그러나 이 시스템의 R&D 는 지질 데이터 정보의 추가 클러스터화, 향후 지질 데이터 정보가 빅 데이터 시대로 진입하는 정보 공유 및 스토리지 관리 문제를 고려하지 않고 명확한 해결책을 제시하지 않았다.

1.2 주요 데이터 스토리지 아키텍처 소개

빅데이터는 최근 몇 년간 클라우드 컴퓨팅 분야의 새로운 데이터로, 데이터 양, 데이터 구조 불안정, 유형 다양성, 쿼리 분석 복잡성 등의 특징을 갖추고 있습니다. 기존의 관계형 데이터베이스 관리 시스템은 데이터 스토리지 규모와 검색 효율성 측면에서 대용량 데이터 스토리지에 적합하지 않습니다. NoSQL (SQL 뿐만 아니라) 은 관계형 데이터베이스와 반대되는 데이터베이스의 총칭입니다. 이들 데이터베이스는 관계형 데이터베이스의 지원을 포기하고 유연하고 분산된 데이터 저장 방식을 사용하여 데이터를 관리함으로써 대용량 데이터 저장 및 처리 요구를 충족합니다. NoSQL 은 비관계형 데이터 저장소의 설계 철학을 기반으로 키 값 쌍을 통해 저장됩니다. 사용되는 데이터 문자 구조는 고정되지 않으며, 각 튜플은 서로 다른 필드를 가질 수 있으며, 각 튜플은 필요에 따라 키 값 쌍을 추가하여 검색 시간과 저장 공간을 줄일 수 있습니다. 현재 널리 사용되고 있는 NoSQL 데이터베이스는 Google BigTable, HBase, MongoDB, Neo4 j, Infinite Graph 등이다.

빅 데이터 기반의 지질 데이터 정보 저장 아키텍처 설계 2

국토자원부가 지질자료 정보 서비스 클러스터화 산업화 배치를 전면적으로 추진한 결과 국토자원부는 국토자원부 정보센터에서 개발한 지질자료 정보 클러스터화 서비스 플랫폼을 활용해 지질자료 정보 저장 및 공유를 장려했다. 시스템은 MySQL 을 데이터 스토리지 시스템으로 사용합니다.

기존 시스템 및 업무와 연계하기 위해 향후 빅 데이터 시대로 접어들 후의 지질 데이터 저장을 준비하기 위해 이 문서에서는 대규모 지질 데이터 정보 저장에 사용할 수 있는 분산 데이터 스토리지 아키텍처를 설계했습니다 (그림 1).

전체 시스템은 사용자 수준에 따라 사용자 관리 수준으로 나눌 수 있습니다. 지도 제한으로 인해 그림 1 은 국가 관리 (즉, * * * 서비스 플랫폼 사용자 계층), 지방 관리, 시 관리 (실제 필요에 따라 현급으로 확장 가능) 의 세 가지 수준만 표시합니다.

각 관리 수준의 각 사용자는 개별 서버를 관리할 수 있습니다. 예를 들어 국토자원부 정보센터는 서버 한 대를 별도로 관리할 수 있습니다. 간쑤 국토자원정보센터는 서버 한 대를 단독으로 관리할 수 있고, 산시 국토자원정보센터는 서버 한 대를 개별적으로 관리할 수 있다. 간쑤 () 의 몇몇 시 국토국 () 은 필요에 따라 자신의 서버를 관리할 수 있다.

서버에 두 개의 데이터베이스 관리 시스템을 설치합니다. 하나는 기존의 MySQL 데이터베이스 관리 시스템이고 다른 하나는 대용량 데이터 스토리지용 NoSQL 데이터베이스 관리 시스템입니다. 또한 서버측에서 사용자 계층과 데이터베이스 간 및 두 데이터베이스 세트 간의 통신을 위한 데이터베이스 관리자 미들웨어를 개발했습니다.

각 경영진은 자체 데이터베이스와 데이터를 유지 관리하기 때문입니다. 사용자가 데이터를 저장해야 할 때 영향을 받는 데이터베이스는 로컬 데이터베이스일 뿐이므로 스토리지 효율성이 높습니다. 사용자가 여러 데이터베이스에서 데이터를 읽어야 하는 경우 최상위 * * * 서비스 플랫폼은 사용자 요구 사항에 따라 작업을 분할하고 데이터베이스 읽기를 위해 하위 관리에 작업을 할당합니다. 모든 데이터베이스가 병렬로 읽히므로 데이터베이스 읽기 효율성이 향상됩니다.

그림 1 빅 데이터에서의 지질 데이터 정보 저장 아키텍처 블록 다이어그램

2. 1 사용자 관리

권한 범위에 따라 사용자 경영진은 여러 계층으로 나뉩니다 (이 문서의 경우 3 계층).

최상위 국가 관리 (* * * 서비스 플랫폼 사용자 계층) 는 사용자 액세스 권한 할당, 직접 관련된 데이터베이스 액세스, 하위 관리 태스크 할당을 담당합니다.

사용자 액세스 권한 할당은 이 * * * 서비스 플랫폼에 액세스하는 개별 사용자 및 단위 사용자에 대한 데이터 액세스 권한 할당 및 보안 설계입니다.

직접 관련된 데이터베이스 액세스는 로컬 데이터베이스에 직접 저장된 데이터에 대한 액세스입니다. 이 데이터베이스에는 필요한 지질 데이터뿐만 아니라 등록된 사용자 정보 등의 데이터도 저장해야 한다.

하위 관리 작업 할당은 사용자가 여러 하위 데이터베이스에 액세스해야 하는 경우 명령을 입력하여 이러한 하위 데이터베이스를 쿼리하면 하위 데이터베이스를 찾는 방법이 이 기능에 의해 수행된다는 의미입니다. 예를 들어, 간쑤, 산시, 상하이, 베이징의 철광석 분포도를 찾고자 하는 사용자는 이러한 장소와 철광석에 대한 조회 조건만 입력하면 각 성의 데이터베이스 조회 임무가 자동으로 하위 관리에 할당됩니다.

마찬가지로, 다음 수준의 지방 및 시 관리는 사용자 액세스 권한이 없다는 점을 제외하면 국가 관리와 동일한 기능을 합니다. 계층 데이터베이스는 인터넷을 통해 서로 연결되어 분산 데이터베이스 시스템을 형성합니다.

2.2 MySQL 및 NoSQL 통합

MySQL 은 SQL 쿼리 언어를 지원하는 관계형 데이터베이스이고 NoSQL 은 관계형 데이터베이스가 아니므로 SQL 쿼리 언어를 지원하지 않습니다. 사용자가 두 데이터베이스에 투명하게 액세스하려면 데이터베이스 관리자 미들웨어를 사용자가 데이터베이스에 액세스하는 통합 포털과 두 데이터베이스 관리 시스템을 위한 커뮤니케이션 플랫폼으로 설계해야 합니다. 이 문서에서 설계한 데이터베이스 관리자의 간단한 모델은 그림 2 에 나와 있습니다.

그림 2 데이터베이스 관리자 모델

서버 관리자는 사용자 프로그램 인터페이스를 통해 응용 프로그램과 통신하고, MySQL 데이터베이스 인터페이스를 통해 MySQL 서버와 통신하며, NoSQL 데이터베이스 인터페이스를 통해 NoSQL 데이터베이스 인터페이스와 통신합니다. 응용 프로그램 인터페이스가 데이터베이스 액세스 명령을 수신하면 명령 확인을 위해 데이터베이스 액세스 명령 구문 분석기에 전달되어 해당 데이터베이스 인터페이스를 통해 데이터베이스에 액세스하는 MySQL 액세스 명령 또는 NoSQL 액세스 명령이 형성됩니다. 응용 프로그램 인터페이스는 데이터베이스에서 반환된 액세스 결과를 요약하고 응용 프로그램에 반환합니다.

두 데이터베이스는 이중 데이터베이스 통신 프로토콜을 통해 서로 통신하고 서로 방문할 수 있습니다. 이 통신 프로토콜을 구축하면 지질학자들이 MySQL 데이터베이스에 저장된 구조화 스토리지에 적합하지 않은 데이터를 NoSQL 데이터베이스로 쉽게 전송할 수 있어 시스템 업그레이드 및 최적화가 용이합니다.

2.3 시스템 저장 및 검색 방법

이 스토리지 프레임워크의 설계에서는 분산 네트워크 스토리지 모델, 즉 확장 가능한 스토리지 구조를 사용하여 전국에 분산되어 있는 여러 독립 서버를 사용하여 데이터를 저장합니다. 이 방법은 서버의 스토리지 압력을 분담할 뿐만 아니라 시스템의 신뢰성과 가용성을 높이고 시스템 확장을 용이하게 합니다. 또한 지질 데이터 정보 저장소의 특수성으로 인해 로컬 사용자의 데이터 저장은 기본적으로 로컬 서버에서 이루어지며 네트워크를 통한 원격 저장은 거의 없으므로 데이터 저장이 효율적입니다.

MySQL 및 NoSQL 데이터베이스 관리 시스템은 하나의 데이터베이스 서버에 설치되며 각각 지질 데이터 정보에 구조화된 데이터와 구조화되지 않은 데이터를 저장하는 데 사용됩니다. 여기서 NoSQL 데이터베이스는 일부 구조화 된 데이터와 모든 구조화되지 않은 데이터를 저장하는 기본 데이터베이스로 사용됩니다. MySQL 데이터베이스는 기존 시스템에 이미 저장된 정형 데이터와 데이터를 저장하는 보조 데이터베이스로 사용됩니다. 두 개의 데이터베이스를 사용하여 구조화된 데이터와 큰 데이터 시대의 지질 정보를 모두 저장할 수 있으므로 시스템 적응성과 유연성이 뛰어납니다.

2.4 보안 설계

지질 자료와 정보는 국가 기밀에 속하므로 지질 직원들은 반드시 그 안전을 확보해야 한다. 지질 자료 정보가 디지털화 시대에 접어들면서 지질 자료는 컴퓨터와 네트워크를 통해 전송되는 경우가 많으며, 지질 자료 정보의 안전한 전송과 보존은 지질 종사자들이 중시하고 해결해야 할 문제이다. 이 스토리지 아키텍처 설계의 보안 문제에는 주로 데이터베이스 스토리지 보안, 데이터 전송 보안, 데이터 액세스 보안 등이 포함됩니다.

데이터베이스 설계는 다자간 보안 모델과 다단계 보안 모델을 사용하여 데이터베이스의 정보 및 데이터 유출을 방지하고 데이터베이스의 보안 성능을 향상시키며 데이터베이스의 지질 정보 저장 보안을 보장합니다. 사용자가 시스템에 로그인하여 데이터베이스에 액세스할 때 사용자 ID 및 실명 인증이 필요합니다. 주로 사용자 ID 를 효과적으로 식별하여 불법 사용자가 데이터베이스에 액세스하지 못하도록 합니다. 지질 데이터의 네트워크 전송에서는 먼저 데이터를 암호화한 다음 네트워크를 통해 전송하여 전송 중 지질 정보가 도난되는 것을 방지해야 합니다.

3 결론

지질자료의 디지털화와 정보화 수준을 높이는 것은 외국 지질작업이 비교적 강한 국가의 보편적인 관행이다. 우리나라 지질자료 정보 서비스의 클러스터화 산업화를 추진하기 위해 이 글은 우리나라의 기존 지질자료 정보 클러스터화 서비스 플랫폼의 결함과 문제를 겨냥하여, 대데이터 저장 관리 모델의 사상을 이용하여, 대데이터 아래 지질자료 정보의 저장 아키텍처를 설계하였다. 우리나라 지질자료 정보 서비스의 클러스터화 산업화가 대데이터 시대의 데이터 저장에 적응할 수 있게 하다. 스토리지 아키텍처 설계에는 단순한 모델 구축만 포함되며, 상세하고 복잡한 기능 설계 및 소프트웨어 구현은 추가 연구에서 수행되어야 합니다.

참고

[1] 오. 대형 데이터 저장 모델의 연구와 응용 [D]. 베이징: 베이징우편대학 컴퓨터학원, 20 12.

, 왕,,, 등. 대량 구조화 데이터 저장 및 검색 시스템 [J]. 컴퓨터 개발, 2012,49 (부록): 1 ~ 5.

황, 이효동, 리산산 등. 고성능 컴퓨터용 대용량 데이터 처리 플랫폼의 실현 및 평가 [J]. 컴퓨터 개발, 2012,49 (부록): 357 ~ 36/KLOC