HBase 튜토리얼: 초보자를 위한 종합 가이드 [2022]

게시 됨: 2021-01-08

빅 데이터는 가장 빠르게 성장하는 분야 중 하나입니다. Facebook과 같은 기술 대기업에서 금융 기관에 이르기까지 모두가 빅 데이터를 사용하여 운영을 개선하고 있습니다. 그리고 가장 인기 있는 빅 데이터 솔루션 중 하나는 Hadoop입니다.

Hadoop에 대해 배우려면 모든 주요 구성 요소에 대해 배워야 합니다. 그렇기 때문에 이 기사에서는 Hadoop의 필수적인 부분인 HBase에 대해 논의할 것입니다. 아키텍처, 기록 및 응용 프로그램과 같은 HBase 기본 사항에 대해 논의합니다. 나중에 참조할 수 있도록 이 문서를 북마크에 추가할 수 있습니다.

시작하자.

HBase 란 무엇입니까?

Google의 Big Table과 유사하게 HBase는 대량의 구조화된 데이터에 빠르게 액세스할 수 있는 데이터 모델입니다. Apache Software Foundation의 제품이며 Hadoop 프로젝트의 일부입니다. Java로 작성되었으며 비관계형 및 오픈 소스 분산 데이터베이스입니다. Hadoop의 스토리지 구성 요소인 HDFS(Hadoop Distributed File System)에서 실행됩니다.

HBase는 분산되고 일관성 있고 다차원적이며 희소합니다. 방대한 양의 데이터, 가변 스키마 및 기타 여러 요구 사항과 함께 사용할 수 있습니다.

희소 데이터가 무엇인지 궁금할 것입니다. 글쎄, 그것은 건초 더미에서 바늘을 찾는 것과 비슷합니다.

HBase의 역사

특징과 기능에 대해 이야기하기 전에 그 역사에 대해 알아야 합니다. Google은 2006년 BigTable에 대한 논문을 발표했으며, 그 후 개발자는 2007년에 첫 번째 HBase 프로토타입을 만들었습니다.

HBase의 첫 번째 버전은 2007년 10월 Hadoop과 함께 시장에 출시되었습니다. 2008년에는 하둡의 서브 프로젝트가 되었고, 2010년에는 아파치 최상위 프로젝트가 되었습니다. Hadoop 및 기타 주요 구성 요소와 나란히 발전했다고 말할 수 있습니다.

HBase가 필요한 이유는 무엇입니까?

빅 데이터 이전에는 RDBMS가 데이터 저장 문제에 대한 최고의 솔루션이었습니다. 그러나 데이터 양이 증가함에 따라 기업은 더 나은 데이터 저장 및 관리 솔루션의 필요성을 느꼈습니다. 그때 Hadoop이 등장했습니다.

분산 스토리지 시스템을 사용하며 데이터 처리를 위한 MapReduce가 있습니다. Hadoop에는 HDFS 및 MapReduce와 같은 여러 구성 요소가 있습니다.

HBase는 이러한 필수 구성 요소 중 하나입니다. 그 기능으로 인해 Hadoop 생태계의 중요한 구성원이 되었습니다. 방대한 양의 데이터를 빠르게 작업할 수 있습니다. 또한 데이터를 매우 안전하게 관리할 수 있습니다. HBase 테이블을 사용하여 MapReduce 작업도 백업할 수 있습니다.

또한 Hadoop은 일괄 처리만 수행할 수 있습니다. 데이터에 순차적으로만 액세스합니다. HBase 및 MongoDB와 같은 도구를 사용하면 Hadoop이 순차적 방식이 아닌 무작위로 데이터에 액세스할 수 있습니다.

HDFS와 HBase의 차이점

HDFS와 HBase는 모두 Hadoop의 구성 요소이기 때문에 매우 다르고 별도의 작업을 수행하더라도 이들 간의 차이점을 이해하는 것은 약간 혼란스러울 수 있습니다.

HDFS는 Hadoop의 분산 파일 시스템으로 방대한 양의 데이터를 저장하는 데 사용합니다. 반면에 HBase는 HDFS를 기반으로 하는 데이터베이스입니다. HDFS에서는 개별 레코드를 빠르게 조회할 수 없지만 HBase에서는 조회할 수 있습니다.

HDFS는 대기 시간이 긴 일괄 처리를 제공하는 반면 HBase는 대기 시간이 짧은 액세스를 제공합니다. HDFS의 파일에 순차적으로 액세스할 수 있지만 HBase를 사용하면 임의 액세스가 가능합니다. 전반적으로 HBase는 HDFS로 수행할 수 있는 특정 작업의 속도를 높입니다.

HBase의 아키텍처

HBase 아키텍처를 데이터의 열 중심 키-값 저장소로 정의할 수 있습니다. 이전에 설정한 대로 액세스 가능성과 작동 속도를 향상시켜 HDFS 위에서 완벽하게 작동합니다. HBase의 세 가지 주요 부분은 다음과 같습니다.

지역 서버
H마스터 서버
사육사

HMaster는 지역 서버의 관리 기능과 조정을 담당합니다. Zookeeper는 구성 정보 및 분산 동기화를 담당합니다.

HBase의 스토리지

이 HBase 교육 블로그는 스토리지 메커니즘에 대해 논의하지 않고는 불완전합니다. HBase는 열 지향 데이터베이스이며 테이블을 행별로 정렬한다고 이미 언급했습니다. HBase의 스키마는 키-값 쌍인 열 패밀리를 정의합니다. 하나의 테이블에는 여러 컬럼 패밀리가 있을 수 있고 컬럼 패밀리에는 여러 컬럼이 있을 수 있습니다. 테이블의 모든 셀에는 타임스탬프가 있습니다.

다음과 같은 방식으로 분해할 수 있습니다.

테이블에 여러 행이 있습니다.
행에 여러 열 패밀리가 있습니다.
컬럼 패밀리에는 다양한 컬럼이 있습니다.
열에 다른 키-값 쌍이 있습니다.

행 지향 vs. 열 지향

HBase가 열 지향 데이터베이스라는 것을 알고 있지만 그것이 의미하는 바는 알 수 있습니다. 행 지향 데이터베이스는 온라인 트랜잭션 프로세스에 탁월하지만 열 지향 데이터베이스는 온라인 분석 처리에 탁월합니다. 마찬가지로 전자는 행과 열의 양이 적은 작업에 적합하고 후자는 대량 작업에 적합합니다.

HBase 애플리케이션

데이터 저장의 접근성과 속도를 향상시키는 HBase의 기능으로 인해 많은 산업 분야에서 응용 프로그램을 찾습니다. HBase의 역사에서 이미 오랫동안 시장에서 사용할 수 있다는 것을 읽었습니다. 10년이 넘는 업데이트와 발전을 통해 빅 데이터 전문가에게 중요한 도구가 되었습니다.

다음은 HBase의 응용 프로그램입니다.

우리는 무거운 애플리케이션을 작성해야 할 때 HBase를 사용합니다.
규정 준수 보고서를 작성하기 위해 온라인 로그 분석을 수행해야 하는 경우
HDFS에 저장된 데이터에 빠르고 무작위로 액세스해야 하는 경우
방대한 양의 데이터(빅 데이터)에 대한 실시간 읽기/쓰기 액세스가 필요한 경우

Google 및 Facebook과 같은 많은 주요 조직은 내부 운영을 위해 HBase를 사용합니다. 빅데이터는 도처에 만연해 있기 때문에 상대적으로 HBase에 대한 요구도 높아지고 있다.

마지막 생각들

Hadoop 전문가의 수요가 사상 최고로 치솟았기 때문에 빅 데이터 전문가가 이 솔루션에 대해 최대한 많이 배우는 것이 적합할 것입니다. HBase는 다양한 분야에서 많은 응용 프로그램을 가지고 있습니다. 그렇기 때문에 HBase의 기본 사항과 고급 측면에 대한 학습이 필요합니다.

빅 데이터에 대해 더 알고 싶다면 PG 디플로마 빅 데이터 소프트웨어 개발 전문화 프로그램을 확인하십시오. 이 프로그램은 실무 전문가를 위해 설계되었으며 7개 이상의 사례 연구 및 프로젝트를 제공하고 14개 프로그래밍 언어 및 도구, 실용적인 실습을 다룹니다. 워크샵, 400시간 이상의 엄격한 학습 및 최고의 기업과의 취업 지원.

upGrad에서 다른 소프트웨어 엔지니어링 과정을 확인하십시오.

미래의 기술 마스터 - 빅 데이터

400시간 이상의 학습. 14개 언어 및 도구. IIIT-B 동문 현황.

IIT Bangalore의 빅 데이터 고급 인증 프로그램