기본 Hive 인터뷰 질문 및 답변 2022

게시 됨: 2021-01-08

빅 데이터 인터뷰는 일반 라인(인기 있는 빅 데이터 프레임워크 및 도구에 대한 일반적인 아이디어가 있어야 함)으로 수행되거나 특정 프레임워크 또는 도구에 초점을 맞출 수 있습니다. 오늘 우리는 널리 사용되는 빅 데이터 프레임워크인 Apache Hive에 초점을 맞출 것입니다.

Hive와 관련된 Hadoop 인터뷰 중 고용주가 일반적으로 묻는 질문 유형에 대해 더 나은 아이디어를 얻을 수 있도록 Apache Hive 인터뷰 질문 목록을 만들었습니다.

그러니 Hive 인터뷰를 하고 싶으신 분들은 끝까지 읽어주세요!

아파치 하이브란?

Apache Hive는 Hadoop을 기반으로 구축된 데이터 웨어하우징 프레임워크입니다. 주로 정형 및 반정형 데이터를 분석하는 데 사용됩니다. Hive는 데이터에 대한 구조를 투영하고 SQL 문과 유사한 HQL(Hive Query Language)로 작성된 쿼리를 실행하도록 설계되었습니다. 또한 Hive 컴파일러는 이러한 쿼리를 맵 축소 작업으로 변환합니다.

Hive는 어떤 종류의 애플리케이션을 지원할 수 있습니까?

Hive는 Python, Java, C++, Ruby 및 PHP로 작성된 모든 애플리케이션을 지원할 수 있습니다.

메타스토어란 무엇을 의미합니까? Hive가 HDFS에 메타데이터를 저장하지 않는 이유는 무엇입니까?

Metastore는 메타데이터 정보를 저장하는 Hive의 리포지토리입니다. 이는 객체 표현을 관계형 스키마로 또는 그 반대로 바꾸는 Data Nucleus라는 오픈 소스 ORM(객체 관계형 모델) 레이어와 함께 RDBMS를 활용하여 수행합니다.

Hive는 HDFS를 사용한 읽기/쓰기 작업이 시간 소모적인 프로세스이기 때문에 HDFS가 아닌 RDBMS를 사용하여 메타데이터 정보를 저장합니다. RDBMS는 짧은 대기 시간을 달성하는 데 도움이 되므로 이점이 있습니다.

로컬 메타스토어와 원격 메타스토어를 구별하십시오.

로컬 메타스토어는 Hive 서비스가 실행되는 동일한 JVM에서 실행됩니다. 동일한 시스템 또는 원격 시스템의 별도 JVM에서 실행 중인 데이터베이스에 연결할 수 있습니다. 반면 원격 메타스토어는 Hive 서비스가 실행되는 JVM이 아닌 별도의 JVM에서 실행됩니다.

Hive의 파티션이란 무엇을 의미합니까? 그 중요성은 무엇입니까?

Hive에서 테이블은 열 또는 파티션 키에 따라 유사한 유형의 데이터를 함께 구성하기 위해 파티션으로 분류 및 구성됩니다. 따라서 파티션은 실제로 테이블 디렉토리의 하위 디렉토리입니다. 테이블에는 특정 파티션에 대해 둘 이상의 파티션 키가 있을 수 있습니다.

파티셔닝을 통해 Hive 테이블에서 세분성을 달성할 수 있습니다. 이렇게 하면 전체 데이터 세트가 아닌 관련 분할 데이터만 스캔하므로 쿼리 대기 시간을 줄이는 데 도움이 됩니다.

Hive 변수란 무엇입니까?

Hive 스크립팅 언어로 개발된 Hive 환경에서 Hive 변수가 생성됩니다. 소스 명령을 사용하여 쿼리 실행이 시작될 때 값을 하이브 쿼리로 전송합니다.

Hive는 어떤 종류의 데이터 웨어하우스 애플리케이션에 적합합니까?

Hadoop 및 HDFS의 설계 규정은 Hive의 기능에 특정 제한을 두고 있습니다. 또한 OLTP(Online Transaction Processing)에 필요한 기능이 없습니다. Hive는 다음이 필요한 대규모 데이터 세트의 데이터 웨어하우스 애플리케이션에 가장 적합합니다.

상대적으로 정적인 데이터 분석.
응답 시간이 짧습니다.
데이터에 동적 변경 사항이 없습니다.

하이브 인덱스란 무엇입니까?

Hive 인덱스는 Hive 쿼리 최적화 방법입니다. Hive 데이터베이스의 특정 열 또는 열 집합에 대한 액세스 속도를 높이는 데 사용됩니다. Hive 인덱스를 사용하면 데이터베이스 시스템이 선택한 데이터를 찾기 위해 테이블의 모든 행을 읽을 필요가 없습니다.

Hcatolog가 왜 필요한가요?

외부 시스템과 데이터 구조를 공유하려면 Hcatalog가 필요합니다. Hive 메타스토어에 대한 액세스를 제공하므로 Hive 데이터 웨어하우스에서 데이터를 읽고 쓸 수 있습니다.

Hive 쿼리 프로세서의 구성 요소 이름을 지정하시겠습니까?

Hive 쿼리 프로세서의 구성 요소는 다음과 같습니다.

논리적 생성 계획.
물리적 생성 계획.
실행 엔진.
UDF와 UDAF.
운영자.
옵티마이저.
파서.
의미 분석기.
유형 검사.

ORC 형식 테이블은 Hive가 성능을 향상시키는 데 어떻게 도움이 됩니까?

ORC(Optimized Row Columnar) 파일 형식을 사용하면 Hive 파일 형식의 수많은 제한 사항을 단순화하는 데 도움이 되므로 Hive 데이터를 효율적으로 저장할 수 있습니다.

Object-Inspector의 기능은 무엇입니까?

Hive에서 Object-Inspector는 행 개체의 내부 구조와 열의 개별 구조를 분석하는 데 도움이 됩니다. 또한 메모리에 다양한 형식으로 저장할 수 있는 복잡한 개체에 액세스하는 방법도 제공합니다.

Hive와 HBase의 차이점은 무엇입니까?

Hive와 HBase의 주요 차이점은 다음과 같습니다.

Hive는 데이터 웨어하우스 프레임워크인 반면 HBase는 NoSQL 데이터베이스입니다.
Hive는 대부분의 SQL 쿼리를 실행할 수 있지만 HBase는 SQL 쿼리를 허용하지 않습니다.
Hive는 테이블에 대한 레코드 수준 삽입, 업데이트 및 삭제 작업을 지원하지 않지만 HBase는 이러한 기능을 지원합니다.
Hive는 MapReduce 위에서 실행되지만 HBase는 HDFS 위에서 실행됩니다.

관리되는 테이블과 외부 테이블이란 무엇입니까?

관리되는 테이블에서 메타데이터 정보와 테이블 데이터는 관리되는 테이블을 떠나거나 나가면 Hive 웨어하우스 디렉터리에서 모두 삭제됩니다. 그러나 외부 테이블에서는 테이블과 관련된 메타데이터 정보만 삭제되고 테이블 데이터는 HDFS에 유지됩니다.

Hive 아키텍처의 다른 구성 요소 이름을 지정합니다.

Hive 아키텍처에는 5가지 구성 요소가 있습니다.

사용자 인터페이스 – 사용자가 쿼리 및 기타 작업을 Hive 시스템에 제출할 수 있습니다. 사용자 인터페이스는 Hive 웹 UI, Hive 명령줄 및 Hive HD Insight를 지원합니다.
드라이버 – 쿼리에 대한 세션 핸들을 생성한 다음 쿼리를 컴파일러에 전송하여 동일한 실행 계획을 생성합니다.
Metastore – 웨어하우스의 다른 테이블 및 파티션에 대한 모든 정보와 함께 구조화된 데이터를 포함합니다(속성 포함). 메타데이터 요청을 받으면 쿼리를 실행하기 위해 메타데이터를 컴파일러로 보냅니다.
컴파일러 – 쿼리를 구문 분석하고, 다른 쿼리 블록에 대해 의미론적 분석을 수행하고, 쿼리 표현식을 생성하기 위한 실행 계획을 생성합니다.
실행 엔진 – 컴파일러가 실행 계획을 세우는 동안 실행 엔진은 이를 구현합니다. 다양한 계획 단계의 종속성을 관리합니다.

분명히 Hive에는 이 15가지 질문보다 더 많은 것이 있습니다. 이는 Hive에 대해 쉽게 배우는 데 도움이 되는 기본 개념일 뿐입니다.

빅 데이터에 대해 더 알고 싶다면 PG 디플로마 빅 데이터 소프트웨어 개발 전문화 프로그램을 확인하십시오. 이 프로그램은 실무 전문가를 위해 설계되었으며 7개 이상의 사례 연구 및 프로젝트를 제공하고 14개 프로그래밍 언어 및 도구, 실용적인 실습을 다룹니다. 워크샵, 400시간 이상의 엄격한 학습 및 최고의 기업과의 취업 지원.

즐거운 배움!

데이터 주도 기술 혁명을 주도하다

400시간 이상의 학습. 14개 언어 및 도구. IIIT-B 동문 현황.

IIT Bangalore의 빅 데이터 고급 인증 프로그램