2022 年 15 大 Hadoop 面試問答

已發表: 2021-01-09

隨著數據分析的發展勢頭強勁，對擅長處理大數據的人的需求激增。從數據分析師到數據科學家，大數據今天正在創建一系列工作檔案。您需要親身體驗的第一件事是 Hadoop。
無論何種工作角色/資料，您都可能以一種或另一種方式在 Hadoop 上工作。因此，您總是可以期望面試官按照您的方式提出一些 Hadoop 問題。

為此，讓我們看一下在您參加的任何面試中都可能出現的 15 個 Hadoop 面試問題。

什麼是 Hadoop？ Hadoop的主要組件是什麼？

Hadoop 是一種基礎設施，配備了處理和存儲大數據所需的相關工具和服務。準確地說，Hadoop 是所有大數據挑戰的“解決方案”。此外，Hadoop 框架還可以幫助組織分析大數據並做出更好的業務決策。
Hadoop的主要組件是：

高密度文件系統
Hadoop MapReduce
Hadoop 通用
紗
PIG 和 HIVE – 數據訪問組件。
HBase – 用於數據存儲
Ambari、Oozie 和 ZooKeeper – 數據管理和監控組件
Thrift 和 Avro – 數據序列化組件
Apache Flume、Sqoop、Chukwa – 數據集成組件
Apache Mahout 和 Drill – 數據智能組件

Hadoop框架的核心概念是什麼？

Hadoop 基本上基於兩個核心概念。他們是：

HDFS：HDFS 或 Hadoop 分佈式文件系統是一種基於 Java 的可靠文件系統，用於以塊格式存儲大量數據集。主從架構為其提供動力。
MapReduce：MapReduce 是一種有助於處理大型數據集的編程結構。該函數進一步分為兩部分——“map”將數據集分離為元組，“reduce”使用映射元組並創建較小元組塊的組合。

關於 Apache Storm 你需要知道的一切

說出 Hadoop 中最常見的輸入格式？

Hadoop中有三種常見的輸入格式：

文本輸入格式：這是 Hadoop 中的默認輸入格式。
序列文件輸入格式：此輸入格式用於按順序讀取文件。
Key Value Input Format：這個是用來讀取純文本文件的。

什麼是紗線？

YARN 是 Yet Another Resource Negotiator 的縮寫。它是 Hadoop 的數據處理框架，用於管理數據資源並為成功處理創建環境。

什麼是“機架意識”？

“機架感知”是 NameNode 用來確定數據塊及其副本存儲在 Hadoop 集群中的模式的算法。這是在機架定義的幫助下實現的，這些定義減少了同一機架中包含的數據節點之間的擁塞。

什麼是主動和被動 NameNode？

一個高可用性 Hadoop 系統通常包含兩個 NameNode——Active NameNode 和 Passive NameNode。
運行 Hadoop 集群的 NameNode 稱為 Active NameNode，存儲 Active NameNode 數據的備用 NameNode 稱為 Passive NameNode。
擁有兩個 NameNode 的目的是，如果 Active NameNode 崩潰，Passive NameNode 可以帶頭。因此，NameNode 始終在集群中運行，系統永遠不會出現故障。

大數據：必須了解的工具和技術

Hadoop 框架中有哪些不同的調度程序？

Hadoop框架中有三種不同的調度器：

COSHH – COSHH 通過審查集群和工作負載以及異構性來幫助安排決策。
FIFO 調度程序 – FIFO 根據到達時間在隊列中排列作業，不使用異質性。
公平共享——公平共享為單個用戶創建了一個包含多個地圖的池，並減少了資源上的插槽，他們可以使用這些資源執行特定的作業。

什麼是投機執行？

通常在 Hadoop 框架中，某些節點的運行速度可能比其他節點慢。這往往會限制整個程序。為了克服這個問題，Hadoop 首先檢測或“推測”某個任務的運行速度是否比平時慢，然後為該任務啟動等效備份。因此，在這個過程中，主節點同時執行這兩個任務，並且首先完成的任務被接受，而另一個被殺死。 Hadoop 的這種備份功能稱為推測執行。

命名 Apache HBase 的主要組件？

Apache HBase 由三個組件組成：

Region Server：一張表被劃分為多個Region後，這些Region的集群通過Region Server轉發給客戶端。
HMaster：這是一個幫助管理和協調Region服務器的工具。
ZooKeeper：ZooKeeper 是 HBase 分佈式環境中的協調器。它通過會話中的通信幫助維護集群內的服務器狀態。

什麼是“檢查點”？ 它有什麼好處？

檢查點是指將 FsImage 和 Edit log 組合以形成新 FsImage 的過程。因此，NameNode 可以直接從 FsImage 加載最終的內存狀態，而不是重播編輯日誌。輔助 NameNode 負責此過程。
Checkpointing 提供的好處是它最大限度地減少了 NameNode 的啟動時間，從而使整個過程更加高效。
流行文化中的大數據應用

如何調試 Hadoop 代碼？

要調試 Hadoop 代碼，首先，您需要檢查當前正在運行的 MapReduce 任務列表。然後您需要檢查是否有任何孤立任務同時運行。如果是這樣，您需要按照以下簡單步驟查找資源管理器日誌的位置：
運行“ps –ef | grep –I ResourceManager”，然後在顯示的結果中，嘗試查找是否存在與特定作業 id 相關的錯誤。
現在，確定用於執行任務的工作節點。登錄節點並運行“ps –ef | grep –iNodeManager。”
最後，仔細檢查節點管理器日誌。大多數錯誤是從每個 map-reduce 作業的用戶級別日誌生成的。

Hadoop 中 RecordReader 的用途是什麼？

Hadoop 將數據分解為塊格式。 RecordReader 有助於將這些數據塊集成到單個可讀記錄中。例如，如果輸入數據被分成兩個塊——
第 1 行 - 歡迎來到
第 2 行 - 升級
RecordReader 會將其讀取為“歡迎來到 UpG rad”。

Hadoop 可以在哪些模式下運行？

Hadoop可以運行的模式有：

獨立模式 – 這是 Hadoop 的默認模式，用於調試目的。它不支持 HDFS。
偽分佈式模式——該模式需要配置mapred-site.xml、core-site.xml和hdfs-site.xml文件。這裡的主節點和從節點都是一樣的。
完全分佈式模式——完全分佈式模式是 Hadoop 的生產階段，其中數據分佈在 Hadoop 集群上的各個節點上。這裡，主節點和從節點是分開分配的。

列舉一些 Hadoop 的實際應用。

以下是 Hadoop 發揮作用的一些真實實例：

管理街道交通
欺詐檢測和預防
實時分析客戶數據以改善客戶服務
訪問來自醫生、HCP 等的非結構化醫療數據，以改善醫療保健服務。

可以提高大數據性能的重要 Hadoop 工具有哪些？

顯著提高大數據性能的 Hadoop 工具是

• 蜂巢
• HDFS
• HBase
• SQL
• NoSQL
• Oozie
• 雲
• Avro
• 水槽
• 動物園管理員

hadoop_map1
大數據工程師：神話與現實

結論

這些 Hadoop 面試問題應該對你下次面試有很大幫助。雖然有時面試官傾向於扭曲一些 Hadoop 面試問題，但如果你已經整理好基礎知識，這對你來說應該不是問題。

如果您有興趣了解有關大數據的更多信息，請查看我們的 PG 大數據軟件開發專業文憑課程，該課程專為在職專業人士設計，提供 7 多個案例研究和項目，涵蓋 14 種編程語言和工具，實用的動手操作研討會，超過 400 小時的嚴格學習和頂級公司的就業幫助。

引領數據驅動的技術革命

超過 400 小時的學習時間。 14 種語言和工具。 IIIT-B 校友身份。

IIIT Bangalore 大數據高級證書課程

2022 年 15 大 Hadoop 面試問答

為此，讓我們看一下在您參加的任何面試中都可能出現的 15 個 Hadoop 面試問題。

什麼是 Hadoop？ Hadoop的主要組件是什麼？

Hadoop框架的核心概念是什麼？

說出 Hadoop 中最常見的輸入格式？

什麼是紗線？

什麼是“機架意識”？

什麼是主動和被動 NameNode？

Hadoop 框架中有哪些不同的調度程序？

什麼是投機執行？

命名 Apache HBase 的主要組件？

什麼是“檢查點”？它有什麼好處？

如何調試 Hadoop 代碼？

Hadoop 中 RecordReader 的用途是什麼？

Hadoop 可以在哪些模式下運行？

列舉一些 Hadoop 的實際應用。

可以提高大數據性能的重要 Hadoop 工具有哪些？

結論

引領數據驅動的技術革命

2022 年 15 大 Hadoop 面試問答

為此，讓我們看一下在您參加的任何面試中都可能出現的 15 個 Hadoop 面試問題。

什麼是 Hadoop？ Hadoop的主要組件是什麼？

Hadoop框架的核心概念是什麼？

說出 Hadoop 中最常見的輸入格式？

什麼是紗線？

什麼是“機架意識”？

什麼是主動和被動 NameNode？

Hadoop 框架中有哪些不同的調度程序？

什麼是投機執行？

命名 Apache HBase 的主要組件？

什麼是“檢查點”？ 它有什麼好處？

如何調試 Hadoop 代碼？

Hadoop 中 RecordReader 的用途是什麼？

Hadoop 可以在哪些模式下運行？

列舉一些 Hadoop 的實際應用。

可以提高大數據性能的重要 Hadoop 工具有哪些？

結論

引領數據驅動的技術革命

什麼是“檢查點”？它有什麼好處？