必读 24 个 Datastage 面试问题和答案 [终极指南 2022]

已发表: 2021-01-08

Datastage 是IBM 在其InfoSphere 套件和Information Solutions Platforms 套件中提供的ETL,即Extract、Transform 和Load 工具。 它是一种流行的 ETL 工具,用于处理大型数据集和仓库以创建和维护数据存储库。 在本文中,我们将研究最常见的DataStage 面试问题,我们还将提供这些问题的答案。 如果您是初学者并且有兴趣了解有关数据科学的更多信息,请查看我们来自顶尖大学的数据科学培训。

最常见的DataStage 面试问题和答案如下:

目录

DataStage 面试问答

1. 什么是 IBM DataStage,为什么使用它?

DataStage 是 IBM 提供的一个工具,用于设计、开发和执行应用程序,通过从 Windows 服务器的数据库中提取数据来将数据填充到数据仓库中。 它包含用于数据集成的图形可视化功能,还可以从多个来源提取数据。 因此,它被认为是最有效的 ETL 工具之一。 DataStage 有各种版本,公司可以根据他们的要求使用。 这些版本是服务器版、MVS 版和企业版。

2、DataStage有什么特点?

IBM DataStage 的特点如下:

  • 它可以根据需要和要求部署在本地服务器和云端。
  • 它使用起来毫不费力,可以有效地提高数据集成的速度和灵活性。
  • 它支持大数据,可以通过多种方式访问​​大数据,例如 JDBC 集成器、JSON 支持和分布式文件系统。

3. 简要描述 DataStage 架构。

IBM DataStage 遵循客户端-服务器模型作为其架构,并且针对其不同版本具有不同的架构类型。 客户端-服务器架构的组件是:

    1. 客户端组件
    2. 服务器
    3. 阶段
    4. 表定义
    5. 容器
    6. 项目
    7. 工作

4. 我们如何在 DataStage 中使用命令行运行作业?

命令是: dsjob -run -jobstatus <projectname> <jobname>

5. 列出一些我们可以使用“dsjob”命令执行的函数。

我们可以使用 $dsjob 命令执行的不同功能是:

    1. $dsjob -run:用于运行 DataStage 作业
    2. $dsjob -stop:用于停止进程中当前存在的作业
    3. $dsjob -jobid:用于提供工作信息
    4. $dsjob -report:用于显示完整的作业报告
    5. $dsjob -lprojects:用于列出所有存在的项目
    6. $dsjob -ljobs:用于列出项目中存在的所有作业
    7. $dsjob -lstages:用于列出当前作业的所有阶段
    8. $dsjob -llinks:用于列出所有链接
    9. $dsjobs -lparams:用于列出作业的所有参数
    10. $dsjob -projectinfo:用于获取项目信息
    11. $dsjob -jobinfo:用于作业的信息检索
    12. $dsjob -stageinfo:用于那个job的那个stage的信息检索
    13. $dsjob -linkinfo:用于获取该链接的信息
    14. $dsjob -paraminfo:提供所有参数的信息
    15. $dsjob -loginfo:用于获取日志信息
    16. $dsjob -log:用于在日志中添加文本消息
    17. $dsjob -logsum:用于显示日志数据
    18. $dsjob -logdetail:用于显示日志的所有详细信息
    19. $dsjob -lognewest:用于获取最新日志的id

6. IBM DataStage 中的流程设计器是什么?

Flow Designer 是 DataStage 的基于 Web 的用户界面,用于在 DataStage 中创建、编辑、加载和运行作业。

资源

7. 流设计器的主要特点是什么?

流设计器的主要特点是:

  1. 执行具有大量阶段的作业非常有用。
  2. 无需迁移作业即可使用流程设计器。
  3. 我们可以使用提供的调色板通过拖放功能在设计器画布上添加和删除连接器和运算符。

了解:数据科学与数据挖掘:数据科学与数据挖掘之间的区别

8. DataStage 中如何将服务器作业转换为并行作业?

可以使用 Link 收集器和 IPC 收集器将服务器作业转换为并行作业。

9 . 什么是 HBase 连接器?

DataStage 中的 HBase 连接器是用于连接 HBase 数据库中存在的数据库和表的工具。 它主要用于执行以下任务:

  1. 在 HBase 数据库中读取和写入数据。
  2. 以并行模式读取数据。
  3. 使用 HBase 作为视图表

10. 什么是 Hive 连接器?

Hive 连接器是用于在读取数据时支持分区模式的工具。 它可以通过两种方式完成:

  1. 模数分割模式
  2. 最小-最大分区模式

11. DataStage 中的 Infosphere 是什么?

infosphere 信息服务器能够管理公司的大量需求并提供高质量和更快的结果。 它为公司提供了一个管理数据的单一平台,他们可以在其中理解、清理、转换和交付大量信息。

资源

12. 列出 InfoSphere Information Server 的所有不同层?

InfoSphere Information Server 的不同层是:

  1. 客户层
  2. 服务层
  3. 引擎层
  4. 元数据存储库层

13.简要描述 Infosphere Information Server 的客户端层。

Infosphere Information Server 的客户端层用于使用客户端程序和控制台对计算机进行开发和全面管理。

14. 简要描述 Infosphere Information Server 的服务层。

Infosphere Information Server 的服务层用于提供标准服务,如元数据和日志记录以及其他一些特定于模块的服务。 它包含一个应用服务器、各种产品模块和其他产品服务。

15.简要描述Infosphere Information Server 的引擎层。

Infosphere Information Server 的引擎层是一组逻辑组件,用于运行产品模块的作业和其他任务。

16.简要描述 Infosphere Information Server 的 Metadata Repository 层。

Infosphere Information Server 的元数据存储库层包括元数据存储库、分析数据库和计算机。 它用于共享元数据、共享数据和配置信息。

17. DataStage 中的并行处理有哪些类型?

有两种不同类型的并行处理,它们是:

  1. 数据分区
  2. 数据流水线

18 . 什么是数据分区?

数据分区是一种用于数据处理的并行方法。 它涉及将记录分解为分区以进行处理的过程。 它提高了线性模型中的处理效率。

阅读更多:机器学习中的数据预处理:7 个简单的步骤

19. 什么是数据流水线?

数据流水线是一种用于数据处理的并行方法,我们从源中提取数据,然后使它们通过一系列处理函数以获得所需的输出。

20. DataStage 中的 OSH 是什么?

OSH 是 Orchestrate Shell 的缩写,是并行引擎在 DataStage 内部使用的一种脚本语言。

21.什么是播放器?

DataStage 中的参与者是主力进程。 它们帮助我们执行并行处理,并分配给每个节点上的操作员。

22. DataStage 中的集合库是什么?

收集库是一组运算符,用于收集分区数据。

23. DataStage 的集合库中可用的收集器类型有哪些?

收藏库中可用的收藏家类型有:

  1. Sortmerg 收集器
  2. 循环收集器
  3. 有序收集器

24. 源文件如何填充到 DataStage 中?

可以使用 SQL 查询以及使用行生成器提取工具填充源文件。

底线

我们希望我们包含所有DataStage 面试问题和答案的文章能帮助您为 DataStage 面试做准备。 您可以查看 upGrad 提供的这些课程,以增加您对这些主题的了解:

  1. PG大数据软件开发专业文凭:本课程由upGrad与IIIT-B联合创建,旨在为个人提供软件开发所需的知识,并涵盖大数据管理知识。
  2. 全栈开发中的 PGC :这门全栈开发课程由 upGrad 和 Tech Mahindra 的行业专业人士创建,旨在使个人能够解决行业级别的挑战并获得进入行业和工作所需的所有技能。

我们upGrad随时准备帮助您做好准备。 您还可以查看我们的课程,这些课程可以帮助您学习所有行业所需的技能和技巧,为您的面试和未来的工作抱负做好准备,正如我们常说的“Raho Ambitious”。 这些课程由行业专家和经验丰富的院士制作,使您能够精通您想学习的任何技术和技能。

如果您有兴趣学习 python 并想亲身体验各种工具和库,请查看数据科学中的 Executive PG Program。

Datastage的四个主要阶段是什么?

IBM Datastage 是一个强大的工具,用于设计、开发和执行应用程序,通过从数据库中提取数据将数据填充到数据仓库中。 以下是 Datastage 的四个主要阶段。 管理员用于管理任务,包括设置 DataStage 用户和清除标准、动员和解除项目等。设计者或设计界面开发由主管管理并由服务器运行的 Datastage 应用程序或作业。 顾名思义,manager 维护和管理存储库,并允许用户通过它修改存储的数据。 director 执行各种功能,包括验证作业、调度和执行它们以及监视并行作业。

出于什么目的使用“dsjob”命令?

dsjob 命令用于各种功能,包括检索和显示有关项目或作业的数据。 以下是可以使用 dsjob 命令执行的一些功能。 $dsjob -run 用于运行 DataStage 作业,$dsjob -stop 用于停止当前存在于进程中的作业,$dsjob -jobid 用于提供作业信息,$dsjob -report 用于显示完整的作业报告, 等等。

DataStage的特点是什么?

Datastage 是一个强大的数据架构工具,具有多种特点。 Datastage的一些特点如下: Datastage可以根据用户的需求部署在本地服务器和云服务器上。 数据集成的速度和灵活性可以随时提高,并且可以高效使用。 它支持大数据,可以通过多种方式访问​​大数据,例如 JDBC 集成器、JSON 支持和分布式文件系统。