什么是大数据架构? 定义、层次、流程和最佳实践
已发表: 2021-06-11大数据分析已成为当今世界的中心舞台。 尽管绝大多数结构化和非结构化数据淹没了商业世界,但不可否认的是,这些海量数据及其分析如何帮助企业做出更好、更有洞察力的决策。 毕竟,重要的不是数量,而是数据的构成。
这将我们带到大数据的另一个非常关键的方面,即大数据架构。 大数据分析的基础,大数据架构包含有助于处理和分析对于传统数据库系统来说过于复杂的大数据的底层系统。
这是一份深入的指南,供您发现大数据架构的许多方面以及您可以做些什么来专注于大数据领域。
目录
什么是大数据架构?
大数据架构是支持大数据分析的主要系统。 大数据分析的基石,大数据架构是允许数据被最佳摄取、处理和分析的布局。 换句话说,大数据架构是推动数据分析的关键,它提供了一种方法,大数据分析工具可以通过这种方法从原本晦涩的数据中提取重要信息,并推动有意义的战略性业务决策。
以下是大数据架构中一些最常见组件的简要概述:
- 数据源:所有大数据解决方案数据源的明显起点可能是应用程序生成的静态文件(Web 服务器日志文件)、应用程序数据源(关系数据库)或实时数据源(物联网设备)。
- 数据存储:通常被称为数据湖,分布式文件存储存储大量不同格式的大文件,随后用于批处理操作。
- 批处理:为了使大型数据集为分析做好准备,批处理通过长时间运行的批处理作业执行数据文件的过滤、聚合和准备。
- 消息摄取:大数据架构的这个组件包括一种从实时源捕获和存储消息以进行流处理的方法。
- 流处理:数据分析之前的另一个准备步骤,流处理在捕获实时消息后过滤和聚合数据。
- 分析数据存储:在为分析准备数据后,大多数大数据解决方案以结构化格式提供处理后的数据,以便使用分析工具进行进一步查询。 为这些查询提供服务的分析数据存储可以是 Kimball 风格的关系数据仓库,也可以是低延迟 NoSQL 技术。
- 分析和报告:大多数大数据解决方案的关键目标之一,数据分析和报告提供对数据的洞察力。 为此,大数据架构可能具有数据建模层,支持自助式 BI,甚至包含交互式数据探索。
- 编排:编排技术可以自动化重复数据处理操作所涉及的工作流,例如转换数据源、在源和接收器之间移动数据、将处理后的数据加载到分析数据存储中以及最终报告。
大数据架构层
大数据分析架构的组件主要由执行四个关键流程的四个逻辑层组成。 这些层仅仅是逻辑的,并提供了一种组织架构组件的方法。
- 大数据源层:可用于分析的数据的来源和格式会有所不同; 格式可以是结构化的、非结构化的或半结构化的,数据到达和传递的速度会因来源而异,数据收集方式可以是直接的或通过数据提供者,以批处理方式或实时方式,以及数据源的位置可以在组织外部或内部。
- 数据按摩和存储层:该层从数据源获取数据,对其进行转换,并以与数据分析工具兼容的格式存储。 治理政策和合规性法规主要决定不同类型数据的合适存储格式。
- 分析层:它从数据按摩和存储层(或直接从数据源)提取数据,以从数据中获得洞察力。
- 消费层:该层接收分析层提供的输出,并将其呈现给相关的输出层。 输出的消费者可能是业务流程、人员、可视化应用程序或服务。
大数据架构流程
除了四个逻辑层之外,还有四个跨层进程在大数据环境中运行。
- 数据源连接:快速高效的数据输入需要通过连接器和适配器实现与不同存储系统、协议和网络的无缝连接。
- 大数据治理:数据治理从数据摄取开始,一直持续到数据处理、分析、存储、归档或删除,包括安全和隐私条款。
- 系统管理:现代大数据架构包括高度可扩展的大规模分布式集群; 这些系统必须通过中央管理控制台进行密切监控。
- 服务质量 (QoS): QoS 是一个框架,它支持定义数据质量、摄取频率和大小、合规策略以及数据过滤。
大数据架构最佳实践
大数据架构最佳实践是指一组现代数据架构原则,这些原则有助于开发面向服务的方法,同时满足快节奏的数据驱动世界中的业务需求。
- 使大数据项目与业务愿景保持一致
大数据项目应符合业务目标和组织环境,清楚了解要使用的数据架构工作要求、框架和原则、组织的关键驱动因素、当前使用的业务技术元素、业务战略和组织模型、治理和法律框架,以及现有和当前的架构框架。
- 识别和分类数据源
为了将数据标准化为标准格式,必须识别和分类数据源。 分类可以是结构化数据或非结构化数据; 虽然前者通常通过预定义的数据库技术进行格式化,但后者并不遵循一致且定义明确的格式。
- 将数据整合到一个单一的主数据管理系统中
批处理和流处理是可以合并数据以按需查询的两种方法。 在这方面,必须提到 Hadoop 是一种流行的开源批处理框架,用于存储、处理和分析大量数据。 大数据分析中的Hadoop 架构由四个组件组成——MapReduce、HDFS(大数据分析中的 HDFS 架构遵循主从模型以实现可靠和可扩展的数据存储)、YARN 和 Hadoop Common。 此外,对于查询,可以使用关系 DBMS 或 NoSQL 数据库来存储主数据管理系统。
- 提供简化数据消耗的用户界面
大数据应用架构的直观和可定制的用户界面将使用户更容易消费数据。 例如,它可以是用于数据分析师的 SQL 接口、用于商业智能的 OLAP 接口、用于数据科学家的 R 语言或用于目标系统的实时 API。
- 确保安全和控制
它不是对下游数据存储和应用程序执行数据策略和访问控制,而是直接在原始数据上完成。 Hadoop、Google BigQuery、Amazon Redshift 和 Snowflake 等平台的发展进一步需要这种统一的数据安全方法,并通过 Apache Sentry 等数据安全项目成为现实。
如何构建大数据架构?
如果没有合适的工具和流程,大数据分析师将花费更多时间来组织数据,而不是提供有意义的分析和报告他们的发现。 因此,关键是开发一个合乎逻辑且具有简化设置的大数据架构。
以下是设计大数据架构的一般过程:
- 通过考虑数据种类、数据速度和当前挑战来确定业务是否存在大数据问题。
- 选择管理大数据端到端架构的供应商; 当谈到用于此目的的工具时,大数据分析中的 Hadoop 架构非常受欢迎。 Microsoft、AWS、MapR、Hortonworks、Cloudera 和 BigInsights 是流行的 Hadoop 分发供应商。
- 选择可能是本地、基于云或两者混合的部署策略。
- 通过考虑每日数据摄取量、多数据中心部署、数据保留期、一次性历史负载的数据量以及集群规模调整时间来规划硬件和基础架构规模。
- 作为容量规划的后续步骤,下一步涉及确定基础架构大小以确定硬件类型以及所需的集群或环境的数量。
- 最后但同样重要的是,应制定备份和灾难恢复计划,并适当考虑存储数据的重要性、恢复时间目标和恢复点目标要求、多数据中心部署、备份间隔和灾难类型最合适的恢复(主动-主动或主动-被动)。
使用 upGrad 学习大数据
如果您想了解如何组织、分析和解释大数据,请从upGrad 的软件开发执行 PG 计划开始您的学习之旅 - 大数据专业!
Executive PGP 是一项引人入胜且严格的在线计划,面向希望扩展网络并发展进入大数据职业领域所需的实用知识和技能的专业人士。
以下是课程亮点一览:
- IIIT班加罗尔颁发的认证
- 面向非技术和新程序员的软件职业转型训练营
- 数据科学和机器学习的独家免费访问
- 全面覆盖 10 种工具和编程语言
- 超过 7 个案例研究和行业相关项目
- 来自世界级教师和行业领袖的互动讲座和现场会议
结论
大数据、人工智能和机器学习的空前增长需要有效的方法来分析每天产生的海量数据。 不仅如此,分析报告还必须能够提供可操作的要点,以指导企业的战略决策。 一个可靠且集成良好的大数据架构计划不仅使分析成为可能,而且还带来了许多好处,无论是在节省时间方面,还是在产生和采取行动的洞察力方面。
在 upGrad 查看我们的其他软件工程课程