Apache Spark 架构:2022 年你需要知道的一切

已发表: 2021-01-08

什么是 Apache Spark?

Apache Spark 是一组用于实时开源数据处理的计算框架。 快速计算是当务之急,Apache spark 是计划和计划实现它的最有效和最快速的框架之一。

Apache Spark 的主要特点是借助其内置的集群计算来提高应用程序的处理速度。 除此之外,它还提供了用于对具有隐式数据并行性和容错性等各个方面的完整集群进行编程的接口。 这提供了很大的独立性,因为您不需要并行执行所需的任何特殊指令、运算符或函数。

目录

要学习的重要表达

Spark 应用程序- 这会操作用户输入的代码以获得结果。 它根据自己的计算工作。

Apache SparkContext——这是架构的核心部分。 它用于创建服务和执行工作。

任务——每一步都有自己独特的任务,一步一步地运行。

Apache Spark Shell——简单来说,它基本上是一个应用程序。 Apache Spark Shell 是如何轻松处理各种规模的数据集的重要触发器之一。

阶段- 各种工作在拆分时称为阶段。

作业——它是一组并行运行的计算。

Apache Spark 的要点

Apache Stark 主要基于两个概念,即。 弹性分布式数据集 (RDD) 和有向无环图 (DAG)。 在 RDD 上投下光亮,这表明它是一组被破坏并保存在工作节点上的数据项。 Hadoop 数据集和并行化集合是支持的两个 RDD。

前一个用于 HDFS,而后者用于 Scala 聚会。 跳转到 DAG——这是对数据进行的数学计算循环。 这通过摆脱多次执行操作来简化过程。 这是 Apache Spark 优于 Hadoop 的唯一原因。 了解有关 Apache Spark 与 Hadoop Mapreduce 的更多信息。

Spark 架构概述

在深入研究之前,让我们先了解一下架构。 Apache Spark 具有出色的架构,其中的层和组件与大量库和扩展松散地结合在一起,可以轻松完成这项工作。 主要是,它基于两个主要概念,即。 RDD 和 DAG。 要让任何人了解架构,您都需要对 Spark 生态系统及其基本结构 RDD 等各种组件有充分的了解。

火花的优势

这是一个完全结合成一个整体的平台之一,有两个目的——提供未编辑数据的备份存储和数据的集成处理。 更进一步,Spark Code 非常易于使用。 此外,它更容易编写。 它还广泛用于过滤存储、并行编程等的所有复杂性。

毫无疑问,它没有任何分布式存储和集群管理,尽管它以分布式处理引擎而闻名。 正如我们所知,计算引擎和核心 API 都是它的两个部分,但它还有很多东西可以提供——GraphX、流式传输、MLlib 和 Spark SQL。 这些方面的价值不为任何人所知。 处理算法、不断处理​​数据等仅依靠 Spark Core API。

Apache Spark 的工作

许多组织需要处理大量数据。 与各种工作人员一起工作的核心组件称为驱动程序。 它与许多被公认为执行者的工人一起工作。 任何 Spark 应用程序都是驱动程序和执行程序的混合体。 阅读更多关于顶级火花应用和用途的信息。

Spark可以满足三种工作负载

  • 批处理模式——作业是通过人工干预编写和运行的。
  • 交互模式——命令在检查结果后一一运行。
  • 流媒体模式- 程序连续运行。 结果是在对数据进行转换和操作之后产生的。

Spark 生态系统和 RDD

为了真正理解这个概念的要点,必须牢记 Spark 生态系统有各种组件——Spark SQL、Spark 流、MLib(机器学习库)、Spark R 等等。

在学习 Spark SQL 时,您需要确保为了充分利用它,您需要通过对已经是外部源的一部分的 Spark Data 执行各种查询来对其进行修改,以实现存储容量、时间或成本的最大效率.

在此之后,Spark Streaming 允许开发人员同时执行批处理和数据流。 一切都可以轻松管理。

此外,图形组件促使数据与充足的来源一起工作,从而在轻松构建和转换时具有极大的灵活性和弹性。

接下来是负责使用 Apache Spark 的 Spark R。 这也得益于分布式数据帧实现,它支持对大型数据集的几个操作。 即使对于分布式机器学习,它也支持使用机器学习库。

最后,作为 Spark 生态系统最关键的组件之一的 Spark Core 组件,为编程和监督提供了支持。 在这个核心执行引擎之上,完整的 Spark 生态系统基于不同语言的多个 API,即。 斯卡拉、Python 等。

更重要的是,Spark 支持 Scala。 不用说,Scala 是一种作为 Spark 基础的编程语言。 相反,Spark 支持 Scala 和 Python 作为接口。 不仅如此,好消息是它还支持接口。 用这种语言编写的程序也可以在 Spark 上执行。 在这里,要知道用 Scala 和 Python 编写的代码非常相似。 阅读更多关于 Apache spark 在大数据中的作用。

Spark 还支持两种非常常见的编程语言——R 和 Java。

结论

现在您已经了解了 Spark 生态系统的工作原理,是时候通过在线学习程序来探索更多关于 Apache Spark 的信息了。 与我们联系以了解有关我们在 Apache Spark 上的电子学习计划的更多信息。

如果您有兴趣了解有关大数据的更多信息,请查看我们的 PG 大数据软件开发专业文凭课程,该课程专为在职专业人士设计,提供 7 多个案例研究和项目,涵盖 14 种编程语言和工具,实用的动手操作研讨会,超过 400 小时的严格学习和顶级公司的就业帮助。

在 upGrad 查看我们的其他软件工程课程。

立即规划您的数据科学职业生涯

7 案例研究和项目。 顶级公司的工作协助。 敬业的学生导师。
IIIT Bangalore 大数据高级证书课程