2022 年 15 大 Hadoop 面試問答

已發表: 2021-01-09

隨著數據分析的發展勢頭強勁,對擅長處理大數據的人的需求激增。 從數據分析師到數據科學家,大數據今天正在創建一系列工作檔案。 您需要親身體驗的第一件事是 Hadoop。
無論何種工作角色/資料,您都可能以一種或另一種方式在 Hadoop 上工作。 因此,您總是可以期望面試官按照您的方式提出一些 Hadoop 問題。

為此,讓我們看一下在您參加的任何面試中都可能出現的 15 個 Hadoop 面試問題。

  1. 什麼是 Hadoop? Hadoop的主要組件是什麼?

Hadoop 是一種基礎設施,配備了處理和存儲大數據所需的相關工具和服務。 準確地說,Hadoop 是所有大數據挑戰的“解決方案”。 此外,Hadoop 框架還可以幫助組織分析大數據並做出更好的業務決策。
Hadoop的主要組件是:

  • 高密度文件系統
  • Hadoop MapReduce
  • Hadoop 通用
  • PIG 和 HIVE – 數據訪問組件。
  • HBase – 用於數據存儲
  • Ambari、Oozie 和 ZooKeeper – 數據管理和監控組件
  • Thrift 和 Avro – 數據序列化組件
  • Apache Flume、Sqoop、Chukwa – 數據集成組件
  • Apache Mahout 和 Drill – 數據智能組件
  1. Hadoop框架的核心概念是什麼?

Hadoop 基本上基於兩個核心概念。 他們是:

  • HDFS:HDFS 或 Hadoop 分佈式文件系統是一種基於 Java 的可靠文件系統,用於以塊格式存儲大量數據集。 主從架構為其提供動力。
  • MapReduce:MapReduce 是一種有助於處理大型數據集的編程結構。 該函數進一步分為兩部分——“map”將數據集分離為元組,“reduce”使用映射元組並創建較小元組塊的組合。
關於 Apache Storm 你需要知道的一切
  1. 說出 Hadoop 中最常見的輸入格式?

Hadoop中有三種常見的輸入格式:

  • 文本輸入格式:這是 Hadoop 中的默認輸入格式。
  • 序列文件輸入格式:此輸入格式用於按順序讀取文件。
  • Key Value Input Format:這個是用來讀取純文本文件的。
  1. 什麼是紗線?

YARN 是 Yet Another Resource Negotiator 的縮寫。 它是 Hadoop 的數據處理框架,用於管理數據資源並為成功處理創建環境。

  1. 什麼是“機架意識”?

“機架感知”是 NameNode 用來確定數據塊及其副本存儲在 Hadoop 集群中的模式的算法。 這是在機架定義的幫助下實現的,這些定義減少了同一機架中包含的數據節點之間的擁塞。

  1. 什麼是主動和被動 NameNode?

一個高可用性 Hadoop 系統通常包含兩個 NameNode——Active NameNode 和 Passive NameNode。
運行 Hadoop 集群的 NameNode 稱為 Active NameNode,存儲 Active NameNode 數據的備用 NameNode 稱為 Passive NameNode。
擁有兩個 NameNode 的目的是,如果 Active NameNode 崩潰,Passive NameNode 可以帶頭。 因此,NameNode 始終在集群中運行,系統永遠不會出現故障。

大數據:必須了解的工具和技術
  1. Hadoop 框架中有哪些不同的調度程序?

Hadoop框架中有三種不同的調度器:

  • COSHH – COSHH 通過審查集群和工作負載以及異構性來幫助安排決策。
  • FIFO 調度程序 – FIFO 根據到達時間在隊列中排列作業,不使用異質性。
  • 公平共享——公平共享為單個用戶創建了一個包含多個地圖的池,並減少了資源上的插槽,他們可以使用這些資源執行特定的作業。
  1. 什麼是投機執行?

通常在 Hadoop 框架中,某些節點的運行速度可能比其他節點慢。 這往往會限制整個程序。 為了克服這個問題,Hadoop 首先檢測或“推測”某個任務的運行速度是否比平時慢,然後為該任務啟動等效備份。 因此,在這個過程中,主節點同時執行這兩個任務,並且首先完成的任務被接受,而另一個被殺死。 Hadoop 的這種備份功能稱為推測執行。

  1. 命名 Apache HBase 的主要組件?

Apache HBase 由三個組件組成:

  • Region Server:一張表被劃分為多個Region後,這些Region的集群通過Region Server轉發給客戶端。
  • HMaster:這是一個幫助管理和協調Region服務器的工具。
  • ZooKeeper:ZooKeeper 是 HBase 分佈式環境中的協調器。 它通過會話中的通信幫助維護集群內的服務器狀態。
  1. 什麼是“檢查點”? 它有什麼好處?

檢查點是指將 FsImage 和 Edit log 組合以形成新 FsImage 的過程。 因此,NameNode 可以直接從 FsImage 加載最終的內存狀態,而不是重播編輯日誌。 輔助 NameNode 負責此過程。
Checkpointing 提供的好處是它最大限度地減少了 NameNode 的啟動時間,從而使整個過程更加高效。
流行文化中的大數據應用

  1. 如何調試 Hadoop 代碼?

要調試 Hadoop 代碼,首先,您需要檢查當前正在運行的 MapReduce 任務列表。 然後您需要檢查是否有任何孤立任務同時運行。 如果是這樣,您需要按照以下簡單步驟查找資源管理器日誌的位置:
運行“ps –ef | grep –I ResourceManager”,然後在顯示的結果中,嘗試查找是否存在與特定作業 id 相關的錯誤。
現在,確定用於執行任務的工作節點。 登錄節點並運行“ps –ef | grep –iNodeManager。”
最後,仔細檢查節點管理器日誌。 大多數錯誤是從每個 map-reduce 作業的用戶級別日誌生成的。

  1. Hadoop 中 RecordReader 的用途是什麼?

Hadoop 將數據分解為塊格式。 RecordReader 有助於將這些數據塊集成到單個可讀記錄中。 例如,如果輸入數據被分成兩個塊——
第 1 行 - 歡迎來到
第 2 行 - 升級
RecordReader 會將其讀取為“歡迎來到 UpG rad”。

  1. Hadoop 可以在哪些模式下運行?

Hadoop可以運行的模式有:

  • 獨立模式 – 這是 Hadoop 的默認模式,用於調試目的。 它不支持 HDFS。
  • 偽分佈式模式——該模式需要配置mapred-site.xml、core-site.xml和hdfs-site.xml文件。 這裡的主節點和從節點都是一樣的。
  • 完全分佈式模式——完全分佈式模式是 Hadoop 的生產階段,其中數據分佈在 Hadoop 集群上的各個節點上。 這裡,主節點和從節點是分開分配的。
  1. 列舉一些 Hadoop 的實際應用。

以下是 Hadoop 發揮作用的一些真實實例:

  • 管理街道交通
  • 欺詐檢測和預防
  • 實時分析客戶數據以改善客戶服務
  • 訪問來自醫生、HCP 等的非結構化醫療數據,以改善醫療保健服務。
  1. 可以提高大數據性能的重要 Hadoop 工具有哪些?

顯著提高大數據性能的 Hadoop 工具是

• 蜂巢
• HDFS
• HBase
• SQL
• NoSQL
• Oozie
• 雲
• Avro
• 水槽
• 動物園管理員

hadoop_map1
大數據工程師:神話與現實

結論

這些 Hadoop 面試問題應該對你下次面試有很大幫助。 雖然有時面試官傾向於扭曲一些 Hadoop 面試問題,但如果你已經整理好基礎知識,這對你來說應該不是問題。

如果您有興趣了解有關大數據的更多信息,請查看我們的 PG 大數據軟件開發專業文憑課程,該課程專為在職專業人士設計,提供 7 多個案例研究和項目,涵蓋 14 種編程語言和工具,實用的動手操作研討會,超過 400 小時的嚴格學習和頂級公司的就業幫助。

引領數據驅動的技術革命

超過 400 小時的學習時間。 14 種語言和工具。 IIIT-B 校友身份。
IIIT Bangalore 大數據高級證書課程