必讀 24 個 Datastage 面試問題和答案 [終極指南 2022]

已發表: 2021-01-08

Datastage 是IBM 在其InfoSphere 套件和Information Solutions Platforms 套件中提供的ETL,即Extract、Transform 和Load 工具。 它是一種流行的 ETL 工具,用於處理大型數據集和倉庫以創建和維護數據存儲庫。 在本文中,我們將研究最常見的DataStage 面試問題,我們還將提供這些問題的答案。 如果您是初學者並且有興趣了解有關數據科學的更多信息,請查看我們來自頂尖大學的數據科學培訓。

最常見的DataStage 面試問題和答案如下:

目錄

DataStage 面試問答

1. 什麼是 IBM DataStage,為什麼使用它?

DataStage 是 IBM 提供的一個工具,用於設計、開發和執行應用程序,通過從 Windows 服務器的數據庫中提取數據來將數據填充到數據倉庫中。 它包含用於數據集成的圖形可視化功能,還可以從多個來源提取數據。 因此,它被認為是最有效的 ETL 工具之一。 DataStage 有各種版本,公司可以根據他們的要求使用。 這些版本是服務器版、MVS 版和企業版。

2、DataStage有什麼特點?

IBM DataStage 的特點如下:

  • 它可以根據需要和要求部署在本地服務器和雲端。
  • 它使用起來毫不費力,可以有效地提高數據集成的速度和靈活性。
  • 它支持大數據,可以通過多種方式訪問大數據,例如 JDBC 集成器、JSON 支持和分佈式文件系統。

3. 簡要描述 DataStage 架構。

IBM DataStage 遵循客戶端-服務器模型作為其架構,並且針對其不同版本具有不同的架構類型。 客戶端-服務器架構的組件是:

    1. 客戶端組件
    2. 服務器
    3. 階段
    4. 表定義
    5. 容器
    6. 項目
    7. 工作

4. 我們如何在 DataStage 中使用命令行運行作業?

命令是: dsjob -run -jobstatus <projectname> <jobname>

5. 列出一些我們可以使用“dsjob”命令執行的函數。

我們可以使用 $dsjob 命令執行的不同功能是:

    1. $dsjob -run:用於運行 DataStage 作業
    2. $dsjob -stop:用於停止進程中當前存在的作業
    3. $dsjob -jobid:用於提供工作信息
    4. $dsjob -report:用於顯示完整的作業報告
    5. $dsjob -lprojects:用於列出所有存在的項目
    6. $dsjob -ljobs:用於列出項目中存在的所有作業
    7. $dsjob -lstages:用於列出當前作業的所有階段
    8. $dsjob -llinks:用於列出所有鏈接
    9. $dsjobs -lparams:用於列出作業的所有參數
    10. $dsjob -projectinfo:用於獲取項目信息
    11. $dsjob -jobinfo:用於作業的信息檢索
    12. $dsjob -stageinfo:用於那個job的那個stage的信息檢索
    13. $dsjob -linkinfo:用於獲取該鏈接的信息
    14. $dsjob -paraminfo:提供所有參數的信息
    15. $dsjob -loginfo:用於獲取日誌信息
    16. $dsjob -log:用於在日誌中添加文本消息
    17. $dsjob -logsum:用於顯示日誌數據
    18. $dsjob -logdetail:用於顯示日誌的所有詳細信息
    19. $dsjob -lognewest:用於獲取最新日誌的id

6. IBM DataStage 中的流程設計器是什麼?

Flow Designer 是 DataStage 的基於 Web 的用戶界面,用於在 DataStage 中創建、編輯、加載和運行作業。

資源

7. 流設計器的主要特點是什麼?

流設計器的主要特點是:

  1. 執行具有大量階段的作業非常有用。
  2. 無需遷移作業即可使用流程設計器。
  3. 我們可以使用提供的調色板通過拖放功能在設計器畫布上添加和刪除連接器和運算符。

了解:數據科學與數據挖掘:數據科學與數據挖掘之間的區別

8. DataStage 中如何將服務器作業轉換為並行作業?

可以使用 Link 收集器和 IPC 收集器將服務器作業轉換為並行作業。

9 . 什麼是 HBase 連接器?

DataStage 中的 HBase 連接器是用於連接 HBase 數據庫中存在的數據庫和表的工具。 它主要用於執行以下任務:

  1. 在 HBase 數據庫中讀取和寫入數據。
  2. 以並行模式讀取數據。
  3. 使用 HBase 作為視圖表

10. 什麼是 Hive 連接器?

Hive 連接器是用於在讀取數據時支持分區模式的工具。 它可以通過兩種方式完成:

  1. 模數分割模式
  2. 最小-最大分區模式

11. DataStage 中的 Infosphere 是什麼?

infosphere 信息服務器能夠管理公司的大量需求並提供高質量和更快的結果。 它為公司提供了一個管理數據的單一平台,他們可以在其中理解、清理、轉換和交付大量信息。

資源

12. 列出 InfoSphere Information Server 的所有不同層?

InfoSphere Information Server 的不同層是:

  1. 客戶層
  2. 服務層
  3. 引擎層
  4. 元數據存儲庫層

13.簡要描述 Infosphere Information Server 的客戶端層。

Infosphere Information Server 的客戶端層用於使用客戶端程序和控制台對計算機進行開發和全面管理。

14. 簡要描述 Infosphere Information Server 的服務層。

Infosphere Information Server 的服務層用於提供標準服務,如元數據和日誌記錄以及其他一些特定於模塊的服務。 它包含一個應用服務器、各種產品模塊和其他產品服務。

15.簡要描述Infosphere Information Server 的引擎層。

Infosphere Information Server 的引擎層是一組邏輯組件,用於運行產品模塊的作業和其他任務。

16.簡要描述 Infosphere Information Server 的 Metadata Repository 層。

Infosphere Information Server 的元數據存儲庫層包括元數據存儲庫、分析數據庫和計算機。 它用於共享元數據、共享數據和配置信息。

17. DataStage 中的並行處理有哪些類型?

有兩種不同類型的並行處理,它們是:

  1. 數據分區
  2. 數據流水線

18 . 什麼是數據分區?

數據分區是一種用於數據處理的並行方法。 它涉及將記錄分解為分區以進行處理的過程。 它提高了線性模型中的處理效率。

閱讀更多:機器學習中的數據預處理:7 個簡單的步驟

19. 什麼是數據流水線?

數據流水線是一種用於數據處理的並行方法,我們從源中提取數據,然後使它們通過一系列處理函數以獲得所需的輸出。

20. DataStage 中的 OSH 是什麼?

OSH 是 Orchestrate Shell 的縮寫,是並行引擎在 DataStage 內部使用的一種腳本語言。

21.什麼是播放器?

DataStage 中的參與者是主力進程。 它們幫助我們執行並行處理,並分配給每個節點上的操作員。

22. DataStage 中的集合庫是什麼?

收集庫是一組運算符,用於收集分區數據。

23. DataStage 的集合庫中可用的收集器類型有哪些?

收藏庫中可用的收藏家類型有:

  1. Sortmerg 收集器
  2. 循環收集器
  3. 有序收集器

24. 源文件如何填充到 DataStage 中?

可以使用 SQL 查詢以及使用行生成器提取工具填充源文件。

底線

我們希望我們包含所有DataStage 面試問題和答案的文章能幫助您為 DataStage 面試做準備。 您可以查看 upGrad 提供的這些課程,以增加您對這些主題的了解:

  1. PG 大數據軟件開發專業文憑:本課程由 upGrad 與 IIIT-B 聯合創建,旨在為個人提供軟件開發所需的知識,並涵蓋大數據管理知識。
  2. 全棧開發中的 PGC :這門全棧開發課程由 upGrad 和 Tech Mahindra 的行業專業人士創建,旨在使個人能夠解決行業級別的挑戰並獲得進入行業和工作所需的所有技能。

我們upGrad隨時準備幫助您做好準備。 您還可以查看我們的課程,這些課程可以幫助您學習所有行業所需的技能和技巧,為您的面試和未來的工作抱負做好準備,正如我們常說的“Raho Ambitious”。 這些課程由行業專家和經驗豐富的院士製作,使您能夠精通您想學習的任何技術和技能。

如果您有興趣學習 python 並想親身體驗各種工具和庫,請查看數據科學中的 Executive PG Program。

Datastage的四個主要階段是什麼?

IBM Datastage 是一個強大的工具,用於設計、開發和執行應用程序,通過從數據庫中提取數據將數據填充到數據倉庫中。 以下是 Datastage 的四個主要階段。 管理員用於管理任務,包括設置 DataStage 用戶和清除標準、動員和解除項目等。設計者或設計界面開發由主管管理並由服務器運行的 Datastage 應用程序或作業。 顧名思義,manager 維護和管理存儲庫,並允許用戶通過它修改存儲的數據。 director 執行各種功能,包括驗證作業、調度和執行它們以及監視並行作業。

出於什麼目的使用“dsjob”命令?

dsjob 命令用於各種功能,包括檢索和顯示有關項目或作業的數據。 以下是可以使用 dsjob 命令執行的一些功能。 $dsjob -run 用於運行 DataStage 作業,$dsjob -stop 用於停止當前存在於進程中的作業,$dsjob -jobid 用於提供作業信息,$dsjob -report 用於顯示完整的作業報告, 等等。

DataStage的特點是什麼?

Datastage 是一個強大的數據架構工具,具有多種特點。 Datastage的一些特點如下: Datastage可以根據用戶的需求部署在本地服務器和雲服務器上。 數據集成的速度和靈活性可以隨時提高,並且可以高效使用。 它支持大數據,可以通過多種方式訪問大數據,例如 JDBC 集成器、JSON 支持和分佈式文件系統。