빅 데이터 아키텍처란 무엇입니까? 정의, 계층, 프로세스 및 모범 사례

게시 됨: 2021-06-11

빅 데이터 분석은 오늘날의 세계에서 중심이 되었습니다. 압도적으로 많은 양의 정형 및 비정형 데이터가 비즈니스 세계를 휩쓸고 있지만 이 방대한 양의 데이터와 그 분석이 기업이 더 나은 통찰력 있는 결정을 내리는 데 어떻게 도움이 되었는지는 부인할 수 없습니다. 결국 중요한 것은 양이 아니라 데이터로 구성되는 것입니다.

이는 빅 데이터의 또 다른 매우 중요한 측면인 빅 데이터 아키텍처 로 이어 집니다. 빅 데이터 분석의 기반인 빅 데이터 아키텍처 는 기존 데이터베이스 시스템이 처리하기에는 너무 복잡한 빅 데이터의 처리 및 분석을 용이하게 하는 기본 시스템을 포함합니다.

다음은 빅 데이터 아키텍처 의 여러 측면을 발견하고 빅 데이터 분야를 전문화하기 위해 할 수 있는 일에 대한 심층 가이드입니다.

목차

빅 데이터 아키텍처란 무엇입니까?

빅 데이터 아키텍처 는 빅 데이터 분석을 지원하는 기본 시스템입니다. 빅 데이터 분석의 기반인 빅 데이터 아키텍처 는 데이터를 최적으로 수집, 처리 및 분석할 수 있는 레이아웃입니다. 다시 말해, 빅 데이터 아키텍처 는 데이터 분석을 주도하고 빅 데이터 분석 도구가 모호한 데이터에서 중요한 정보를 추출하고 의미 있고 전략적인 비즈니스 결정을 내릴 수 있는 수단을 제공하는 핵심 요소입니다.

다음은 빅 데이터 아키텍처의 가장 일반적인 구성 요소에 대한 간략한 개요입니다.

  • 데이터 소스: 모든 빅 데이터 솔루션 데이터 소스의 분명한 출발점은 애플리케이션(웹 서버 로그 파일), 애플리케이션 데이터 소스(관계형 데이터베이스) 또는 실시간 데이터 소스(IoT 장치)에서 생성된 정적 파일일 수 있습니다.
  • 데이터 저장소: 데이터 레이크라고도 하는 분산 파일 저장소는 나중에 일괄 처리 작업에 사용되는 다양한 형식의 대용량 파일을 보유합니다.
  • 일괄 처리: 대용량 데이터 세트를 분석할 준비가 되도록 일괄 처리는 장기 실행 일괄 작업을 통해 데이터 파일의 필터링, 집계 및 준비를 수행합니다.
  • 메시지 수집: 빅 데이터 아키텍처 의 이 구성 요소 에는 스트림 처리를 위해 실시간 소스에서 메시지를 캡처하고 저장하는 방법이 포함됩니다.
  • 스트림 처리: 데이터 분석 전의 또 다른 준비 단계인 스트림 처리는 실시간 메시지를 캡처한 후 데이터를 필터링하고 집계합니다.
  • 분석 데이터 저장소: 대부분의 빅 데이터 솔루션은 분석용 데이터를 준비한 후 분석 도구를 사용하여 추가 쿼리를 위해 구조화된 형식으로 처리된 데이터를 제공합니다. 이러한 쿼리를 제공하는 분석 데이터 저장소는 Kimball 스타일의 관계형 데이터 웨어하우스이거나 대기 시간이 짧은 NoSQL 기술일 수 있습니다.
  • 분석 및 보고: 대부분의 빅 데이터 솔루션의 중요한 목표 중 하나인 데이터 분석 및 보고는 데이터에 대한 통찰력을 제공합니다. 이를 위해 빅 데이터 아키텍처 에는 데이터 모델링 계층이 있거나 셀프 서비스 BI를 지원하거나 대화형 데이터 탐색을 통합할 수도 있습니다.
  • 오케스트레이션: 오케스트레이션 기술은 데이터 원본 변환, 원본과 싱크 간 데이터 이동, 처리된 데이터를 분석 데이터 저장소로 로드, 최종 보고와 같은 반복되는 데이터 처리 작업과 관련된 워크플로를 자동화할 수 있습니다.

빅 데이터 아키텍처 계층

빅 데이터 분석 아키텍처의 구성 요소는 주로 4가지 핵심 프로세스를 수행하는 4가지 논리적 계층으로 구성됩니다. 계층은 논리적일 뿐이며 아키텍처의 구성 요소를 구성하는 수단을 제공합니다.

  • 빅 데이터 소스 레이어: 분석에 사용할 수 있는 데이터는 출처와 형식이 다릅니다. 형식은 정형, 비정형 또는 반정형일 수 있으며, 데이터 도착 및 전달 속도는 소스에 따라 다르며, 데이터 수집 모드는 직접 또는 데이터 제공자를 통해 일괄 모드 또는 실시간일 수 있으며, 데이터 소스의 위치는 외부일 수도 있고 조직 내부일 수도 있습니다.
  • 데이터 마사지 및 저장 계층: 이 계층은 데이터 소스에서 데이터를 수집하고 변환하여 데이터 분석 도구와 호환되는 형식으로 저장합니다. 거버넌스 정책 및 규정 준수 규정은 주로 다양한 유형의 데이터에 적합한 저장 형식을 결정합니다.
  • 분석 계층: 데이터 마사지 및 저장 계층(또는 데이터 소스에서 직접)에서 데이터를 추출하여 데이터에서 통찰력을 도출합니다.
  • 소비 계층: 이 계층은 분석 계층에서 제공하는 출력을 수신하여 관련 출력 계층에 제공합니다. 출력의 소비자는 비즈니스 프로세스, 사람, 시각화 응용 프로그램 또는 서비스일 수 있습니다.

빅 데이터 아키텍처 프로세스

4개의 논리적 계층 외에도 4개의 교차 계층 프로세스가 빅 데이터 환경에서 작동합니다.

  • 데이터 소스 연결: 빠르고 효율적인 데이터 유입을 위해서는 커넥터 및 어댑터를 통해 달성되는 다양한 스토리지 시스템, 프로토콜 및 네트워크에 대한 원활한 연결이 필요합니다.
  • 빅 데이터 거버넌스: 데이터 거버넌스는 데이터 수집에서 바로 작동하고 데이터 처리, 분석, 저장, 보관 또는 삭제를 통해 계속되며 보안 및 개인 정보 보호에 대한 조항을 포함합니다.
  • 시스템 관리: 최신 빅 데이터 아키텍처 는 확장성이 뛰어난 대규모 분산 클러스터로 구성됩니다. 이러한 시스템은 중앙 관리 콘솔을 통해 면밀히 모니터링해야 합니다.
  • 서비스 품질(QoS): QoS는 데이터 품질, 수집 빈도 및 크기, 규정 준수 정책 및 데이터 필터링을 정의하기 위한 지원을 제공하는 프레임워크입니다.

빅 데이터 아키텍처 모범 사례

빅 데이터 아키텍처 모범 사례는 빠르게 변화하는 데이터 중심 세계에서 비즈니스 요구 사항을 해결하는 동시에 서비스 지향 접근 방식을 개발하는 데 도움이 되는 일련의 최신 데이터 아키텍처 원칙을 나타냅니다.

  • 빅 데이터 프로젝트를 비즈니스 비전에 맞춰 조정

빅 데이터 프로젝트는 데이터 아키텍처 작업 요구 사항, 사용할 프레임워크 및 원칙, 조직의 주요 동인, 현재 사용 중인 비즈니스 기술 요소, 비즈니스 전략에 대한 명확한 이해와 함께 비즈니스 목표 및 조직 컨텍스트와 일치해야 합니다. 및 조직 모델, 거버넌스 및 법적 프레임워크, 기존 및 현재 아키텍처 프레임워크.

  • 데이터 소스 식별 및 분류

데이터를 표준 형식으로 정규화하려면 데이터 소스를 식별하고 분류해야 합니다. 분류는 구조화된 데이터 또는 구조화되지 않은 데이터일 수 있습니다. 전자는 일반적으로 미리 정의된 데이터베이스 기술을 통해 형식이 지정되지만 후자는 일관되고 잘 정의된 형식을 따르지 않습니다.

  • 데이터를 단일 마스터 데이터 관리 시스템으로 통합

일괄 처리 및 스트림 처리는 요청 시 쿼리를 위해 데이터를 통합할 수 있는 두 가지 방법입니다. 이와 관련하여 Hadoop은 방대한 양의 데이터를 저장, 처리 및 분석하기 위한 인기 있는 오픈 소스 일괄 처리 프레임워크라는 점을 언급해야 합니다. 빅 데이터 분석 Hadoop 아키텍처는 MapReduce, HDFS( 빅 데이터 분석의 HDFS 아키텍처는 안정적이고 확장 가능한 데이터 스토리지를 위한 마스터-슬레이브 모델을 따릅니다), YARN 및 Hadoop Common 의 네 가지 구성 요소로 구성됩니다 . 또한 쿼리를 위해 관계형 DBMS 또는 NoSQL 데이터베이스를 사용하여 마스터 데이터 관리 시스템을 저장할 수 있습니다.

  • 데이터 소비를 용이하게 하는 사용자 인터페이스 제공

빅 데이터 애플리케이션 아키텍처의 직관적이고 사용자 정의 가능한 사용자 인터페이스는 사용자가 데이터를 더 쉽게 소비할 수 있도록 합니다. 예를 들어, 데이터 분석가를 위한 SQL 인터페이스, 비즈니스 인텔리전스를 위한 OLAP 인터페이스, 데이터 과학자를 위한 R 언어 또는 대상 시스템을 위한 실시간 API가 될 수 있습니다.

  • 보안 및 제어 보장

다운스트림 데이터 저장소 및 애플리케이션에 대한 데이터 정책 및 액세스 제어를 시행하는 대신 원시 데이터에서 직접 수행됩니다. 데이터 보안에 대한 이러한 통합 접근 방식은 Hadoop, Google BigQuery, Amazon Redshift 및 Snowflake와 같은 플랫폼의 성장으로 더욱 필요했으며 Apache Sentry와 같은 데이터 보안 프로젝트를 통해 실현되었습니다.

빅 데이터 아키텍처를 구축하는 방법?

올바른 도구와 프로세스가 없으면 빅 데이터 분석가는 의미 있는 분석을 제공하고 결과를 보고하는 것보다 데이터를 구성하는 데 더 많은 시간을 할애하게 됩니다. 따라서 핵심은 논리적이고 간소화된 설정을 가진 빅 데이터 아키텍처 를 개발하는 것입니다.

다음은 빅 데이터 아키텍처 를 설계하는 일반적인 절차입니다 .

  1. 데이터 다양성, 데이터 속도 및 현재 문제를 고려하여 비즈니스에 빅 데이터 문제가 있는지 확인합니다.
  2. 빅 데이터 종단 간 아키텍처 관리를 위한 공급업체 선택, 이러한 목적을 위한 도구와 관련하여 빅 데이터 분석의 Hadoop 아키텍처 는 수요가 많습니다. Microsoft, AWS, MapR, Hortonworks, Cloudera 및 BigInsights는 Hadoop 배포용으로 널리 사용되는 공급업체입니다.
  3. 온프레미스, 클라우드 기반 또는 이 둘을 혼합한 배포 전략 선택.
  4. 일일 데이터 수집 볼륨, 다중 데이터 센터 배포, 데이터 보존 기간, 1회 기록 로드에 대한 데이터 볼륨, 클러스터 크기 조정 시간을 고려하여 하드웨어 및 인프라 크기 조정을 계획합니다.
  5. 용량 계획에 대한 후속 조치로 다음 단계에는 하드웨어 유형과 필요한 클러스터 또는 환경의 수를 결정하기 위한 인프라 크기 조정이 포함됩니다.
  6. 마지막으로 중요한 것은 저장된 데이터의 중요성, 복구 시간 목표 및 복구 시점 목표 요구 사항, 다중 데이터 센터 배포, 백업 간격 및 재해 유형을 충분히 고려하여 백업 및 재해 복구 계획을 수립해야 한다는 것입니다. 가장 적절한 복구(능동-능동 또는 능동-수동)입니다.

upGrad로 빅데이터 배우기

빅 데이터가 어떻게 구성, 분석 및 해석되는지 알고 싶다면 upGrad의 소프트웨어 개발 PG 프로그램 – 빅 데이터 전문화 와 함께 학습 여정을 시작하십시오 !

Executive PGP는 네트워크를 확장하고 빅 데이터 경력 분야에 진입하는 데 필요한 실용적인 지식과 기술을 개발하려는 전문가를 위한 매력적이고 엄격한 온라인 프로그램입니다.

코스 하이라이트는 다음과 같습니다.

  • IIT 방갈로르에서 수여하는 인증
  • 비기술자 및 신규 코더를 위한 소프트웨어 경력 전환 부트캠프
  • 데이터 과학 및 기계 학습에 대한 독점 무료 액세스
  • 10가지 도구 및 프로그래밍 언어에 대한 포괄적인 범위
  • 7개 이상의 사례 연구 및 산업 관련 프로젝트
  • 세계 정상급 교수진 및 업계 리더의 양방향 강의 및 라이브 세션

결론

빅 데이터, 인공 지능 및 머신 러닝의 전례 없는 성장은 매일 생성되는 방대한 양의 데이터를 효과적으로 분석할 수 있는 방법을 요구합니다. 뿐만 아니라 분석 보고서는 비즈니스에서 전략적 의사 결정을 이끌어내기 위해 실행 가능한 시사점을 제공할 수 있어야 합니다. 견고하고 잘 통합된 빅 데이터 아키텍처 계획은 분석을 가능하게 할 뿐만 아니라 절약된 시간과 생성 및 실행된 통찰력 측면에서 많은 이점을 제공합니다.

upGrad에서 다른 소프트웨어 엔지니어링 과정을 확인하십시오.

데이터 주도 기술 혁명을 주도하다

400시간 이상의 학습. 14개 언어 및 도구. IIIT-B 졸업생 현황.
IIT Bangalore의 빅 데이터 고급 인증 프로그램