Apache Spark 架構:2022 年你需要知道的一切
已發表: 2021-01-08什麼是 Apache Spark?
Apache Spark 是一組用於實時開源數據處理的計算框架。 快速計算是當務之急,Apache spark 是計劃和計劃實現它的最有效和最快速的框架之一。
Apache Spark 的主要特點是藉助其內置的集群計算來提高應用程序的處理速度。 除此之外,它還提供了用於對具有隱式數據並行性和容錯性等各個方面的完整集群進行編程的接口。 這提供了很大的獨立性,因為您不需要並行執行所需的任何特殊指令、運算符或函數。
目錄
要學習的重要表達
Spark 應用程序- 這會操作用戶輸入的代碼以獲得結果。 它根據自己的計算工作。
Apache SparkContext——這是架構的核心部分。 它用於創建服務和執行工作。
任務——每一步都有自己獨特的任務,一步一步地運行。

Apache Spark Shell——簡單來說,它基本上是一個應用程序。 Apache Spark Shell 是如何輕鬆處理各種規模的數據集的重要觸發器之一。
階段- 各種工作在拆分時稱為階段。
作業——它是一組並行運行的計算。
Apache Spark 的要點
Apache Stark 主要基於兩個概念,即。 彈性分佈式數據集 (RDD) 和有向無環圖 (DAG)。 在 RDD 上投下光亮,這表明它是一組被破壞並保存在工作節點上的數據項。 Hadoop 數據集和並行化集合是支持的兩個 RDD。
前一個用於 HDFS,而後者用於 Scala 聚會。 跳轉到 DAG——這是對數據進行的數學計算循環。 這通過擺脫多次執行操作來簡化過程。 這是 Apache Spark 優於 Hadoop 的唯一原因。 了解有關 Apache Spark 與 Hadoop Mapreduce 的更多信息。
Spark 架構概述
在深入研究之前,讓我們先了解一下架構。 Apache Spark 具有出色的架構,其中的層和組件與大量庫和擴展鬆散地結合在一起,可以輕鬆完成這項工作。 主要是,它基於兩個主要概念,即。 RDD 和 DAG。 要讓任何人了解架構,您都需要對 Spark 生態系統及其基本結構 RDD 等各種組件有充分的了解。
火花的優點
這是一個完全結合成一個整體的平台之一,有兩個目的——提供未編輯數據的備份存儲和數據的集成處理。 更進一步,Spark Code 非常易於使用。 此外,它更容易編寫。 它還廣泛用於過濾存儲、並行編程等的所有復雜性。

毫無疑問,它沒有任何分佈式存儲和集群管理,儘管它以分佈式處理引擎而聞名。 正如我們所知,計算引擎和核心 API 都是它的兩個部分,但它還有很多東西可以提供——GraphX、流式傳輸、MLlib 和 Spark SQL。 這些方面的價值不為任何人所知。 處理算法、不斷處理數據等僅依靠 Spark Core API。
Apache Spark 的工作
許多組織需要處理大量數據。 與各種工作人員一起工作的核心組件稱為驅動程序。 它與許多被公認為執行者的工人一起工作。 任何 Spark 應用程序都是驅動程序和執行程序的混合體。 閱讀更多關於頂級火花應用和用途的信息。
Spark可以滿足三種工作負載
- 批處理模式——作業是通過人工干預編寫和運行的。
- 交互模式——命令在檢查結果後一一運行。
- 流媒體模式- 程序連續運行。 結果是在對數據進行轉換和操作之後產生的。
Spark 生態系統和 RDD
要真正理解這個概念的要點,必須牢記 Spark 生態系統有各種組件——Spark SQL、Spark 流、MLib(機器學習庫)、Spark R 等等。
在學習 Spark SQL 時,您需要確保為了充分利用它,您需要通過對已經是外部源的一部分的 Spark Data 執行各種查詢來對其進行修改,以實現存儲容量、時間或成本的最大效率.
在此之後,Spark Streaming 允許開發人員同時執行批處理和數據流。 一切都可以輕鬆管理。
此外,圖形組件促使數據與充足的來源一起工作,從而在輕鬆構建和轉換時具有極大的靈活性和彈性。
接下來是負責使用 Apache Spark 的 Spark R。 這也得益於分佈式數據幀實現,它支持對大型數據集的幾個操作。 即使對於分佈式機器學習,它也支持使用機器學習庫。
最後,作為 Spark 生態系統最關鍵的組件之一的 Spark Core 組件,為編程和監督提供了支持。 在這個核心執行引擎之上,完整的 Spark 生態系統基於不同語言的多個 API,即。 斯卡拉、Python 等。

更重要的是,Spark 支持 Scala。 不用說,Scala 是一種作為 Spark 基礎的編程語言。 相反,Spark 支持 Scala 和 Python 作為接口。 不僅如此,好消息是它還支持接口。 用這種語言編寫的程序也可以在 Spark 上執行。 在這裡,要知道用 Scala 和 Python 編寫的代碼非常相似。 閱讀更多關於 Apache spark 在大數據中的作用。
Spark 還支持兩種非常常見的編程語言——R 和 Java。
結論
現在您已經了解了 Spark 生態系統的工作原理,是時候通過在線學習程序來探索更多關於 Apache Spark 的信息了。 與我們聯繫以了解有關我們在 Apache Spark 上的電子學習計劃的更多信息。
如果您有興趣了解有關大數據的更多信息,請查看我們的 PG 大數據軟件開發專業文憑課程,該課程專為在職專業人士設計,提供 7 多個案例研究和項目,涵蓋 14 種編程語言和工具,實用的動手操作研討會,超過 400 小時的嚴格學習和頂級公司的就業幫助。
在 upGrad 查看我們的其他軟件工程課程。