Apache Hive 아키텍처 및 명령: 모드, 특성 및 애플리케이션

게시 됨: 2021-06-30

하이브란?

Apache Hive는 분산 처리 및 데이터 분석을 위해 Facebook에서 개발한 오픈 소스 데이터 웨어하우징 도구입니다. HDFS(Hadoop Distributed File System)를 기반으로 개발되었습니다. Hadoop의 데이터에 구조를 투영하는 메커니즘은 Hive에서 제공합니다. HiveQL(HQL)이라는 SQL과 유사한 언어는 해당 데이터를 쿼리하는 데 사용됩니다. Hive의 테이블과 관계형 데이터베이스의 테이블 사이에는 유사점이 있습니다. Hive 쿼리는 SQL에 익숙한 사람이라면 누구나 쉽게 작성할 수 있습니다.

Hive의 몇 가지 기능은 다음과 같습니다.

스키마 정보를 데이터베이스에 저장하고 처리된 데이터를 HDFS에 저장합니다.
OLAP용으로 설계되었습니다.
쿼리 언어는 SQL과 유사한 HiveQL 또는 HQL입니다.
빠르고 친숙하며 확장 가능합니다.

하이브의 용도

Apache Hive 분산 스토리지입니다.
사용자가 데이터를 쉽게 추출, 변환 및 로드할 수 있는 도구가 제공됩니다.
구조를 제공하기 위해 다양한 데이터 형식이 제공됩니다.
HDFS(Hadoop Distributed File System)에 저장된 파일은 Hive에서 액세스할 수 있습니다.

하이브의 명령

하이브 명령 은 다음과 같습니다 .

데이터 정의 언어(DDL): 데이터베이스의 테이블 및 기타 개체는 이러한 명령을 통해 작성 및 수정됩니다.

CREATE: 테이블이나 데이터베이스를 생성할 때 사용합니다.

SHOW: Database, Table, Properties 등을 보여줄 때 사용합니다.

ALTER: 기존 테이블을 변경할 때 사용합니다.
DESCRIBE: 테이블 열을 설명합니다.

TRUNCATE: 테이블의 행을 영구적으로 자르고 삭제하는 데 사용됩니다.
DELETE: 테이블 데이터를 삭제하지만 복원할 수 있습니다.

데이터 조작 언어(DML): 데이터베이스에서 데이터를 검색, 저장, 수정, 삭제, 삽입 및 업데이트하는 데 사용됩니다.

LOAD, INSERT 문의 구문

데이터 <LOCAL> inpath <file path>를 [tablename] 테이블에 로드합니다.

데이터를 로드한 후 데이터 조작 명령을 사용하여 데이터를 검색합니다.
Count 집계 함수는 테이블의 총 레코드 수를 계산하는 데 사용됩니다.

"create external" 키워드는 테이블을 생성하는 데 사용되며 테이블이 생성될 위치를 제공합니다. EXTERNAL 테이블은 저장을 위한 모든 HDFS 위치를 가리킵니다.

삽입 명령은 데이터 Hive 테이블을 로드하는 데 사용됩니다. "덮어쓰기 삽입"은 기존 데이터를 덮어쓰는 데 사용되며 "삽입"은 기존 데이터에 데이터를 추가하는 데 사용됩니다.
"partitioned by" 명령어로 테이블을 파티션으로 나누고 "clustered by" 명령어로 버킷으로 나눈다.
동적 파티션이 활성화되지 않았기 때문에 데이터를 삽입하면 오류가 발생합니다. 따라서 Hive 셸에서 다음 매개변수를 설정해야 합니다.

설정 hive.exec.dynamic.partition=true;

동적 파티션을 활성화하려면 기본적으로 false입니다.

설정 hive.exec.dynamic.partition.mode=nonstrict;

'Drop Table' 명령은 테이블의 데이터와 메타데이터를 삭제합니다.
집계: 구문:

테이블 이름에서 개수(DISTINCT 범주)를 선택합니다.

이 명령은 'cate' 테이블의 다른 범주를 계산합니다.

그룹화: 구문:

카테고리별 txt 레코드 그룹에서 카테고리, 합계(금액) 선택

결과 집합은 하나 이상의 열로 그룹화됩니다.

조인 작업: 각 열에 공통적인 값을 사용하여 두 테이블의 필드를 결합하는 작업을 수행합니다.

왼쪽 외부 조인: 테이블 A와 B의 경우 왼쪽 외부 조인은 조인 조건이 "오른쪽" 테이블(B)에서 일치하는 레코드를 찾지 못하더라도 "왼쪽" 테이블(A)의 모든 레코드를 포함합니다.

오른쪽 외부 조인: "오른쪽" 테이블(B)의 모든 행이 조인된 테이블에 한 번 이상 나타납니다.
전체 조인: 조인된 테이블에는 두 테이블의 모든 레코드가 포함됩니다. 조인된 테이블에는 두 테이블의 모든 레코드가 포함됩니다.

하이브 아키텍처

Apache Hive 아키텍처 는 그림 1 에 나와 있습니다.

주요 구성품 목록

하이브 아키텍처 의 주요 구성 요소는 다음 과 같습니다.

1. 하이브 클라이언트

Java, Python, C++ 등과 같은 언어로 작성된 다양한 애플리케이션은 Hive에서 제공하는 다양한 드라이버를 사용하여 통신합니다. 선택에 따라 모든 언어로 작성할 수 있습니다. 클라이언트와 서버는 차례로 Hive 서비스의 Hive 서버와 통신합니다.

대부분 세 가지 유형으로 분류됩니다.

Thrift 클라이언트: Apache Thrift를 기반으로 Thrift 클라이언트의 요청을 처리합니다. Thrift 클라이언트는 Thrift 기반 응용 프로그램의 통신에 사용됩니다.
JDBC 클라이언트: JDBC는 Java 관련 응용 프로그램을 위해 제공됩니다. Java 애플리케이션은 JDBC 드라이버를 사용하여 Hive에 연결됩니다. 또한 Thrift를 사용하여 Hive 서버와 통신합니다.
ODBC 클라이언트: ODBC 프로토콜을 기반으로 하는 응용 프로그램은 ODBC 드라이버를 통해 Hive에 연결할 수 있습니다. JDBC와 유사하게 Thrift를 사용하여 Hive 서버와 통신합니다.

2. 하이브 서비스

Hive 서비스는 Hive와 클라이언트의 상호 작용 수단을 제공합니다. 클라이언트가 수행해야 하는 모든 쿼리 관련 작업은 고용 서비스를 통해 전달되어야 합니다. DDL(데이터 정의 언어) 작업의 경우 CLI가 Hive 서비스 역할을 합니다.

모든 드라이버는 Hive 서버와 통신한 다음 Hive 서비스의 기본 드라이버와 통신해야 합니다. Hive 서비스의 드라이버는 클라이언트 특정 응용 프로그램 및 모든 유형의 JDBC, ODBC 등과 통신하는 기본 드라이버를 나타냅니다. 다른 응용 프로그램의 요청은 드라이버에 의해 추가로 처리될 메타스토어 및 필드 시스템으로 처리됩니다.

Hive에서 제공하는 서비스는 다음과 같습니다.

Beeline: Beeline은 사용자가 시스템에 쿼리를 제출할 수 있는 명령 셸입니다. HiveServer2에서 지원합니다. SQLLINE CLI 기반의 JDBC 클라이언트입니다.
Hive 서버 2: 클라이언트는 하이브에 대해 쿼리를 실행할 수 있습니다. HiveServer1의 후속 제품으로 여러 클라이언트에서 여러 쿼리를 실행할 수 있습니다. JDBC 및 ODBC와 같은 개방형 API 클라이언트에 대한 최상의 지원을 제공합니다.
Hive 드라이버: 사용자는 명령 셸을 통해 HiveQL 문을 Hive 드라이버에 제출합니다. 쿼리를 컴파일러에 보내고 쿼리에 대한 세션 핸들을 만듭니다.
Hive 컴파일러: Hive 컴파일러는 쿼리를 전달하는 데 사용됩니다. 메타스토어에 저장된 메타데이터를 사용하여 Hive 컴파일러는 다양한 쿼리 블록 및 표현식에 대해 의미론적 분석 및 유형 검사를 수행합니다. 그런 다음 DAG(Directed Acyclic Graph)인 컴파일러에 의해 실행 계획이 생성됩니다. DAG의 각 단계는 메타데이터 작업, HDFS에 대한 작업 또는 매핑/축소 작업입니다.
옵티마이저: 옵티마이저의 주요 역할은 실행 계획에 대한 변환 작업을 수행하는 것입니다. 작업을 분할하여 효율성과 확장성을 높입니다.
실행 엔진 : 컴파일 및 최적화 단계가 완료된 후 컴파일러가 생성한 실행 계획을 실행하는 것은 실행 엔진의 역할입니다. 계획은 종속성 순서대로 Hadoop을 사용하여 실행됩니다.
Metastore : Metastore는 일반적으로 테이블 및 파티션의 구조와 관련된 메타데이터 정보를 저장하는 관계형 데이터베이스입니다. 열 및 열 유형의 정보를 저장하는 것도 포함하는 중앙 저장소입니다. 데이터를 저장하는 HDFS 파일과 함께 읽기/쓰기 작업에 필요한 직렬 변환기 및 역직렬 변환기 관련 정보도 메타스토어에 저장됩니다. Hive 메타데이터를 쿼리하고 조작하기 위해 Metastore에서 Thrift 인터페이스를 제공합니다.

Metastore는 두 가지 모드로 구성할 수 있습니다.

원격: 이 모드는 Java가 아닌 애플리케이션에 유용하며 원격 모드에서 메타스토어는 Thrift 서비스입니다.
Embedded: 이 모드에서 클라이언트는 JDBC를 통해 메타스토어와 직접 상호 작용할 수 있습니다.
HCatalog: Hadoop의 테이블 및 스토리지 관리 계층은 HCatalog입니다. 그리드에서 데이터를 읽고 쓰기 위한 다양한 데이터 처리 도구는 Pig, MapReduce 등과 같이 사용할 수 있습니다. Hive 메타스토어 위에 구축된 Hive 메타스토어의 테이블 형식 데이터는 다른 데이터 처리 도구에 노출됩니다.
WebHCat: WebHCat은 HCatalog용 HTTP 인터페이스 및 REST API입니다. Hive 메타데이터 작업을 수행하고 Hadoop MapReduce(또는 YARN), Pig, Hive 작업을 실행하는 서비스를 제공합니다.

3. 처리 및 자원 관리

쿼리 실행은 내부 MapReduce 프레임워크에 의해 수행됩니다.

MapReduce 프레임워크는 상용 하드웨어의 대규모 클러스터에서 대량의 데이터를 처리하기 위한 소프트웨어 프레임워크입니다. 데이터는 청크로 분할된 다음 맵 축소 작업에 의해 처리됩니다.

4. 분산 스토리지

Hive 서비스는 다음 작업을 수행하기 위해 Hive 스토리지와 통신합니다.

Hive "메타 스토리지 데이터베이스"는 Hive에서 생성된 테이블의 메타데이터 정보를 보유합니다.
HDFS의 Hadoop 클러스터는 쿼리 결과와 테이블에 로드된 데이터를 저장합니다.

하이브의 다양한 모드

Hive는 데이터의 크기에 따라 두 가지 모드로 작동할 수 있습니다.

로컬 모드

Hive의 로컬 모드는 다음과 같은 경우에 사용됩니다.

설치된 Hadoop에는 하나의 데이터 노드가 있으며 의사 모드로 설치됩니다.
단일 로컬 시스템의 데이터 크기는 더 작습니다.
더 작은 데이터 세트가 존재하기 때문에 로컬 시스템에서 빠른 처리.

맵 축소 모드

Hive의 맵 축소 모드는 다음과 같은 경우에 사용됩니다.

Hadoop에는 여러 노드에 분산된 데이터가 있는 여러 데이터 노드가 있습니다.
데이터 크기가 더 크고 쿼리의 병렬 실행이 필요합니다.
큰 데이터 세트는 더 나은 성능으로 처리할 수 있습니다.

하이브의 특징

테이블과 데이터베이스가 생성된 후 데이터가 테이블에 로드됩니다.
테이블에 저장된 구조화된 데이터만 Hive에서 관리하고 쿼리할 수 있습니다.
Hive 프레임워크는 Map Reduce에 없는 구조화된 데이터를 처리하면서 최적화 및 사용성 기능이 있습니다.
사용 편의성을 위해 Hive SQL에서 영감을 받은 언어는 Map Reduce의 복잡한 프로그래밍 언어에 비해 더 간단한 접근 방식입니다. 테이블, 행, 열 등의 익숙한 개념이 Hive에서 사용됩니다.
쿼리 성능을 높이기 위해 Hive는 디렉터리 구조를 사용하여 데이터를 분할할 수 있습니다.
Hive는 관계형 데이터베이스에 상주하고 스키마 정보를 저장하는 "Metastore"라는 중요한 구성 요소를 포함합니다. Hive와 상호 작용하는 데 웹 GUI 및 JDBC(Java Database Connectivity) 인터페이스의 두 가지 방법을 사용할 수 있습니다.
대부분의 상호 작용에는 CLI(명령줄 인터페이스)가 사용됩니다. CLI는 Hive 쿼리 언어(HQL)를 사용하여 Hive 쿼리를 작성하는 데 사용됩니다.
HQL 구문은 SQL 구문과 유사합니다.
Hive는 4가지 파일 형식을 지원합니다. TEXTFILE, SEQUENCEFILE, ORC 및 RCFILE(기록 열 형식 파일).

결론

Apache Hive는 Hive 클라이언트, Hive 서비스, 처리 프레임워크 및 리소스 관리, 분산 스토리지와 같은 주요 구성 요소로 구성된 오픈 소스 데이터 웨어하우징 도구입니다.

구조 및 반구조화된 데이터 처리를 위해 Hadoop 에코시스템을 기반으로 구축되었습니다. Hive에서 제공하는 사용자 인터페이스를 통해 사용자는 HQL(Hive 쿼리 언어)로 쿼리를 제출할 수 있습니다. 이것은 실행 계획을 생성하기 위해 컴파일러로 전달됩니다. 계획은 최종적으로 실행 엔진에 의해 실행됩니다.

빅 데이터에 대해 더 알고 싶다면 PG 디플로마 빅 데이터 소프트웨어 개발 전문화 프로그램을 확인하십시오. 이 프로그램은 실무 전문가를 위해 설계되었으며 7개 이상의 사례 연구 및 프로젝트를 제공하고 14개 프로그래밍 언어 및 도구, 실용적인 실습을 다룹니다. 워크샵, 400시간 이상의 엄격한 학습 및 최고의 기업과의 취업 지원.

upGrad에서 다른 소프트웨어 엔지니어링 과정을 확인하십시오.

데이터 주도 기술 혁명을 주도하다

7 사례 연구 및 프로젝트. 일류 기업과의 취업 지원. 전담 학생 멘토.

IIT Bangalore의 빅 데이터 고급 인증 프로그램