빅 데이터 아키텍처란 무엇입니까? 정의, 계층, 프로세스 및 모범 사례
게시 됨: 2021-06-11빅 데이터 분석은 오늘날의 세계에서 중심이 되었습니다. 압도적으로 많은 양의 정형 및 비정형 데이터가 비즈니스 세계를 휩쓸고 있지만 이 방대한 양의 데이터와 그 분석이 기업이 더 나은 통찰력 있는 결정을 내리는 데 어떻게 도움이 되었는지는 부인할 수 없습니다. 결국 중요한 것은 양이 아니라 데이터로 구성되는 것입니다.
이는 빅 데이터의 또 다른 매우 중요한 측면인 빅 데이터 아키텍처 로 이어 집니다. 빅 데이터 분석의 기반인 빅 데이터 아키텍처 는 기존 데이터베이스 시스템이 처리하기에는 너무 복잡한 빅 데이터의 처리 및 분석을 용이하게 하는 기본 시스템을 포함합니다.
다음은 빅 데이터 아키텍처 의 여러 측면을 발견하고 빅 데이터 분야를 전문화하기 위해 할 수 있는 일에 대한 심층 가이드입니다.
목차
빅 데이터 아키텍처란 무엇입니까?
빅 데이터 아키텍처 는 빅 데이터 분석을 지원하는 기본 시스템입니다. 빅 데이터 분석의 기반인 빅 데이터 아키텍처 는 데이터를 최적으로 수집, 처리 및 분석할 수 있는 레이아웃입니다. 다시 말해, 빅 데이터 아키텍처 는 데이터 분석을 주도하고 빅 데이터 분석 도구가 모호한 데이터에서 중요한 정보를 추출하고 의미 있고 전략적인 비즈니스 결정을 내릴 수 있는 수단을 제공하는 핵심 요소입니다.
다음은 빅 데이터 아키텍처의 가장 일반적인 구성 요소에 대한 간략한 개요입니다.
- 데이터 소스: 모든 빅 데이터 솔루션 데이터 소스의 분명한 출발점은 애플리케이션(웹 서버 로그 파일), 애플리케이션 데이터 소스(관계형 데이터베이스) 또는 실시간 데이터 소스(IoT 장치)에서 생성된 정적 파일일 수 있습니다.
- 데이터 저장소: 데이터 레이크라고도 하는 분산 파일 저장소는 나중에 일괄 처리 작업에 사용되는 다양한 형식의 대용량 파일을 보유합니다.
- 일괄 처리: 대용량 데이터 세트를 분석할 준비가 되도록 일괄 처리는 장기 실행 일괄 작업을 통해 데이터 파일의 필터링, 집계 및 준비를 수행합니다.
- 메시지 수집: 빅 데이터 아키텍처 의 이 구성 요소 에는 스트림 처리를 위해 실시간 소스에서 메시지를 캡처하고 저장하는 방법이 포함됩니다.
- 스트림 처리: 데이터 분석 전의 또 다른 준비 단계인 스트림 처리는 실시간 메시지를 캡처한 후 데이터를 필터링하고 집계합니다.
- 분석 데이터 저장소: 대부분의 빅 데이터 솔루션은 분석용 데이터를 준비한 후 분석 도구를 사용하여 추가 쿼리를 위해 구조화된 형식으로 처리된 데이터를 제공합니다. 이러한 쿼리를 제공하는 분석 데이터 저장소는 Kimball 스타일의 관계형 데이터 웨어하우스이거나 대기 시간이 짧은 NoSQL 기술일 수 있습니다.
- 분석 및 보고: 대부분의 빅 데이터 솔루션의 중요한 목표 중 하나인 데이터 분석 및 보고는 데이터에 대한 통찰력을 제공합니다. 이를 위해 빅 데이터 아키텍처 에는 데이터 모델링 계층이 있거나 셀프 서비스 BI를 지원하거나 대화형 데이터 탐색을 통합할 수도 있습니다.
- 오케스트레이션: 오케스트레이션 기술은 데이터 원본 변환, 원본과 싱크 간 데이터 이동, 처리된 데이터를 분석 데이터 저장소로 로드, 최종 보고와 같은 반복되는 데이터 처리 작업과 관련된 워크플로를 자동화할 수 있습니다.
빅 데이터 아키텍처 계층
빅 데이터 분석 아키텍처의 구성 요소는 주로 4가지 핵심 프로세스를 수행하는 4가지 논리적 계층으로 구성됩니다. 계층은 논리적일 뿐이며 아키텍처의 구성 요소를 구성하는 수단을 제공합니다.
- 빅 데이터 소스 레이어: 분석에 사용할 수 있는 데이터는 출처와 형식이 다릅니다. 형식은 정형, 비정형 또는 반정형일 수 있으며, 데이터 도착 및 전달 속도는 소스에 따라 다르며, 데이터 수집 모드는 직접 또는 데이터 제공자를 통해 일괄 모드 또는 실시간일 수 있으며, 데이터 소스의 위치는 외부일 수도 있고 조직 내부일 수도 있습니다.
- 데이터 마사지 및 저장 계층: 이 계층은 데이터 소스에서 데이터를 수집하고 변환하여 데이터 분석 도구와 호환되는 형식으로 저장합니다. 거버넌스 정책 및 규정 준수 규정은 주로 다양한 유형의 데이터에 적합한 저장 형식을 결정합니다.
- 분석 계층: 데이터 마사지 및 저장 계층(또는 데이터 소스에서 직접)에서 데이터를 추출하여 데이터에서 통찰력을 도출합니다.
- 소비 계층: 이 계층은 분석 계층에서 제공하는 출력을 수신하여 관련 출력 계층에 제공합니다. 출력의 소비자는 비즈니스 프로세스, 사람, 시각화 응용 프로그램 또는 서비스일 수 있습니다.
빅 데이터 아키텍처 프로세스
4개의 논리적 계층 외에도 4개의 교차 계층 프로세스가 빅 데이터 환경에서 작동합니다.
- 데이터 소스 연결: 빠르고 효율적인 데이터 유입을 위해서는 커넥터 및 어댑터를 통해 달성되는 다양한 스토리지 시스템, 프로토콜 및 네트워크에 대한 원활한 연결이 필요합니다.
- 빅 데이터 거버넌스: 데이터 거버넌스는 데이터 수집에서 바로 작동하고 데이터 처리, 분석, 저장, 보관 또는 삭제를 통해 계속되며 보안 및 개인 정보 보호에 대한 조항을 포함합니다.
- 시스템 관리: 최신 빅 데이터 아키텍처 는 확장성이 뛰어난 대규모 분산 클러스터로 구성됩니다. 이러한 시스템은 중앙 관리 콘솔을 통해 면밀히 모니터링해야 합니다.
- 서비스 품질(QoS): QoS는 데이터 품질, 수집 빈도 및 크기, 규정 준수 정책 및 데이터 필터링을 정의하기 위한 지원을 제공하는 프레임워크입니다.
빅 데이터 아키텍처 모범 사례
빅 데이터 아키텍처 모범 사례는 빠르게 변화하는 데이터 중심 세계에서 비즈니스 요구 사항을 해결하는 동시에 서비스 지향 접근 방식을 개발하는 데 도움이 되는 일련의 최신 데이터 아키텍처 원칙을 나타냅니다.
- 빅 데이터 프로젝트를 비즈니스 비전에 맞춰 조정
빅 데이터 프로젝트는 데이터 아키텍처 작업 요구 사항, 사용할 프레임워크 및 원칙, 조직의 주요 동인, 현재 사용 중인 비즈니스 기술 요소, 비즈니스 전략에 대한 명확한 이해와 함께 비즈니스 목표 및 조직 컨텍스트와 일치해야 합니다. 및 조직 모델, 거버넌스 및 법적 프레임워크, 기존 및 현재 아키텍처 프레임워크.
- 데이터 소스 식별 및 분류
데이터를 표준 형식으로 정규화하려면 데이터 소스를 식별하고 분류해야 합니다. 분류는 구조화된 데이터 또는 구조화되지 않은 데이터일 수 있습니다. 전자는 일반적으로 미리 정의된 데이터베이스 기술을 통해 형식이 지정되지만 후자는 일관되고 잘 정의된 형식을 따르지 않습니다.
- 데이터를 단일 마스터 데이터 관리 시스템으로 통합
일괄 처리 및 스트림 처리는 요청 시 쿼리를 위해 데이터를 통합할 수 있는 두 가지 방법입니다. 이와 관련하여 Hadoop은 방대한 양의 데이터를 저장, 처리 및 분석하기 위한 인기 있는 오픈 소스 일괄 처리 프레임워크라는 점을 언급해야 합니다. 빅 데이터 분석 의 Hadoop 아키텍처는 MapReduce, HDFS( 빅 데이터 분석의 HDFS 아키텍처는 안정적이고 확장 가능한 데이터 스토리지를 위한 마스터-슬레이브 모델을 따릅니다), YARN 및 Hadoop Common 의 네 가지 구성 요소로 구성됩니다 . 또한 쿼리를 위해 관계형 DBMS 또는 NoSQL 데이터베이스를 사용하여 마스터 데이터 관리 시스템을 저장할 수 있습니다.
- 데이터 소비를 용이하게 하는 사용자 인터페이스 제공
빅 데이터 애플리케이션 아키텍처의 직관적이고 사용자 정의 가능한 사용자 인터페이스는 사용자가 데이터를 더 쉽게 소비할 수 있도록 합니다. 예를 들어, 데이터 분석가를 위한 SQL 인터페이스, 비즈니스 인텔리전스를 위한 OLAP 인터페이스, 데이터 과학자를 위한 R 언어 또는 대상 시스템을 위한 실시간 API가 될 수 있습니다.
- 보안 및 제어 보장
다운스트림 데이터 저장소 및 애플리케이션에 대한 데이터 정책 및 액세스 제어를 시행하는 대신 원시 데이터에서 직접 수행됩니다. 데이터 보안에 대한 이러한 통합 접근 방식은 Hadoop, Google BigQuery, Amazon Redshift 및 Snowflake와 같은 플랫폼의 성장으로 더욱 필요했으며 Apache Sentry와 같은 데이터 보안 프로젝트를 통해 실현되었습니다.
빅 데이터 아키텍처를 구축하는 방법?
올바른 도구와 프로세스가 없으면 빅 데이터 분석가는 의미 있는 분석을 제공하고 결과를 보고하는 것보다 데이터를 구성하는 데 더 많은 시간을 할애하게 됩니다. 따라서 핵심은 논리적이고 간소화된 설정을 가진 빅 데이터 아키텍처 를 개발하는 것입니다.
다음은 빅 데이터 아키텍처 를 설계하는 일반적인 절차입니다 .
- 데이터 다양성, 데이터 속도 및 현재 문제를 고려하여 비즈니스에 빅 데이터 문제가 있는지 확인합니다.
- 빅 데이터 종단 간 아키텍처 관리를 위한 공급업체 선택, 이러한 목적을 위한 도구와 관련하여 빅 데이터 분석의 Hadoop 아키텍처 는 수요가 많습니다. Microsoft, AWS, MapR, Hortonworks, Cloudera 및 BigInsights는 Hadoop 배포용으로 널리 사용되는 공급업체입니다.
- 온프레미스, 클라우드 기반 또는 이 둘을 혼합한 배포 전략 선택.
- 일일 데이터 수집 볼륨, 다중 데이터 센터 배포, 데이터 보존 기간, 1회 기록 로드에 대한 데이터 볼륨, 클러스터 크기 조정 시간을 고려하여 하드웨어 및 인프라 크기 조정을 계획합니다.
- 용량 계획에 대한 후속 조치로 다음 단계에는 하드웨어 유형과 필요한 클러스터 또는 환경의 수를 결정하기 위한 인프라 크기 조정이 포함됩니다.
- 마지막으로 중요한 것은 저장된 데이터의 중요성, 복구 시간 목표 및 복구 시점 목표 요구 사항, 다중 데이터 센터 배포, 백업 간격 및 재해 유형을 충분히 고려하여 백업 및 재해 복구 계획을 수립해야 한다는 것입니다. 가장 적절한 복구(능동-능동 또는 능동-수동)입니다.
upGrad로 빅데이터 배우기
빅 데이터가 어떻게 구성, 분석 및 해석되는지 알고 싶다면 upGrad의 소프트웨어 개발 PG 프로그램 – 빅 데이터 전문화 와 함께 학습 여정을 시작하십시오 !
Executive PGP는 네트워크를 확장하고 빅 데이터 경력 분야에 진입하는 데 필요한 실용적인 지식과 기술을 개발하려는 전문가를 위한 매력적이고 엄격한 온라인 프로그램입니다.
코스 하이라이트는 다음과 같습니다.
- IIT 방갈로르에서 수여하는 인증
- 비기술자 및 신규 코더를 위한 소프트웨어 경력 전환 부트캠프
- 데이터 과학 및 기계 학습에 대한 독점 무료 액세스
- 10가지 도구 및 프로그래밍 언어에 대한 포괄적인 범위
- 7개 이상의 사례 연구 및 산업 관련 프로젝트
- 세계 정상급 교수진 및 업계 리더의 양방향 강의 및 라이브 세션
결론
빅 데이터, 인공 지능 및 머신 러닝의 전례 없는 성장은 매일 생성되는 방대한 양의 데이터를 효과적으로 분석할 수 있는 방법을 요구합니다. 뿐만 아니라 분석 보고서는 비즈니스에서 전략적 의사 결정을 이끌어내기 위해 실행 가능한 시사점을 제공할 수 있어야 합니다. 견고하고 잘 통합된 빅 데이터 아키텍처 계획은 분석을 가능하게 할 뿐만 아니라 절약된 시간과 생성 및 실행된 통찰력 측면에서 많은 이점을 제공합니다.
upGrad에서 다른 소프트웨어 엔지니어링 과정을 확인하십시오.