22 个最常被问到的 Talend 面试问题和答案 [针对应届生和有经验者]

已发表: 2021-01-21

Talend 的初衷是实现数据集成的现代化,现已实现跨越式发展,成为当今首选的 numero uno 云和数据集成软件。 Talend 认证被认为是一项非常有价值的技能,如今的公司正在积极寻求聘请 Talend 专业人员。

因此,这可能正是让自己做好准备并在竞争中领先的正确时机。

在这里,我们选择并整理了 Talend 面试的热门问题和答案,可以帮助您在 Talend 面试中取得好成绩并找到您梦寐以求的工作。

现在,让我们看看这些常见的 Talend 面试问题。

顶级 Talend 面试问题和答案

问题 1:什么是 Talend?

Talend 是用于数据集成的开源 ETL(提取、转换加载)工具。 它拥有不同的软件,为数据管理、数据准备、云存储、大数据、数据质量和企业应用集成提供解决方案。

它使公司能够实时安全地相互通信,并采取数据驱动的决策以实现持久的可持续性。

问题 2:与其他 ETL 工具相比,使用 Talend 的优势是什么?

  1. Talend 是一个开源工具,这意味着它得到了一个大型开发者社区的支持。
  2. Talend 任务是自动化和无缝维护的,这使得数据集成更快。
  3. Talend 为组织提供统一的环境来满足他们的需求。
  4. Talend 是下一代软件,这意味着它的创建是为了满足您当前和未来的需求。
  5. Talend 是一个提供本机性能和高数据质量的自助服务平台。

问题 3:在 Talend 中描述一个“项目”?

“项目”被描述为 Talend 中负责编译和存储技术资源的最顶层物理结构。 其中一些资源包括:

  • 商业模式
  • 元数据
  • 工作
  • 上下文变量
  • 例程

问题 4:什么是工作设计?

Talend 中的 Job 在技术术语中是单个 Java 类,被定义为在 Talend 上构建的任何东西的基本可执行单元。 它使用图形表示来定义 Talend 可用信息的功能和范围。

业务需求被转化为代码、程序和例程来实现数据流。

问题 5:描述一个“组件”。

Talend 中任何可以执行操作的功能部件都称为“组件”。 从表面上看,组件是图形表示。

但是,从技术上讲,在执行 Job 时生成的 Java 代码片段就是我们所说的组件。 它们由 Talend 在保存作业时编译。

问题 6:Talend 中存在哪些不同类型的连接?

Talend 中的连接表示将被处理的数据,或者是作业或数据输出的序列。

Talend 中有四种类型的连接可用。 他们是

  1. 迭代
  2. 扳机
  3. 关联

问题 7:解释 Talend 中的各种连接类型。

Row :此连接代表数据流。 一些行连接是查找、多输入/输出和唯一/重复。 除此之外,Filter、Output、Rejects、ErrorRejects 也是行连接。

迭代:使用迭代连接,您可以对文件目录、行或数据库条目中的文件执行循环功能。

触发器:子作业和按触发器性质按顺序触发的作业之间的依赖关系是由触发器创建的。

Link :使用 Link 连接,用户可以将表模式中的信息传输到 Talend 中的 ELT 映射器

问题 8:Talend 中的触发器有哪些类型?

触发器分为两类:

1.Subjob 触发器,包括 OnSubjobOK、OnSubjobError 和 Run if。 OnSubjobOk 在前一个 Subjob 执行后执行。

2.组件触发器,包括OnComponentOK、OnComponentError和Run if。 OnComponentOk 在前一个组件执行后执行。

另请阅读:管理大数据的 7 个工具。

问题 9:解释 Talend 支持的不同模式

Talend 支持的主要模式类型有:

  1. 存储库模式:存储库模式可由多个作业重用。 对架构所做的更改会自动反映在所有作业中。
  2. 通用模式:通用模式作为不同类型数据源之间的共享资源。 它不依赖于单个数据源。
  3. 固定架构:这些是只读的。 它们是预定义的方案,是 Talend 的一些组件。

问题 10:什么是例程? 解释它的类型

例程是可以重用的 Java 代码片段。 它们允许您用 Java 编写自定义代码,从而有助于优化数据处理并提高作业容量。

Talend 中有两种类型的例程:

  1. 系统例程:系统例程是只读的。 可以直接调用它们。
  2. 用户例程:这些是用户创建的自定义例程。 它们要么是全新的,要么是对现有例程的改编。

问题 11:Schema 可以在运行时定义吗?

不,无法在运行时定义模式。 这是因为模式表示数据移动,因此应该在配置组件时定义它们。

问题 12:说明“存储库”和“内置”之间的区别?

以下是内置和存储库之间的区别:

  1. 在 Built-in 中,数据存储在本地的 Job 中,而 Repository 中的数据集中存储在 Repository 中。
  2. 只有本地 Job 才能使用 Built-in 中的数据。 对于 Repository,Project 中的任何 Job 都可以使用它。
  3. 与数据是只读的存储库不同,可以访问作业中的数据以在内置中进行更新。

问题 13:定义上下文变量

上下文变量是作业在运行时可以访问的用户定义的参数。 随着作业从开发阶段进入测试和生产阶段,这些变量的值会发生变化。

定义上下文变量的三种方法:

  1. 嵌入式上下文变量
  2. 存储库上下文变量
  3. 外部上下文变量

问题 14:Talend Open Studio 中的“大纲视图”是做什么用的?

TOS 中的大纲视图有助于跟踪组件中包含的返回值。 在 tSetGlobal 组件中创建的用户定义值包含在大纲视图中。

问题 15:什么是 tMap 组件? 使用 tMap 组件可以执行哪些各种功能?

Talend 中的 tMap 是“处理”系列的核心组件。 它允许您将输入映射到输出数据。

它的功能是:

  1. 它允许您添加或删除列
  2. 转换规则可以应用于任何类型的字段
  3. 可以使用指定的约束过滤输入数据和输出数据
  4. 它允许您拒绝数据
  5. 您可以使用 tMap 组件复用或解复用数据
  6. 它允许您连接数据
  7. 它允许您交换数据

问题 16:什么是 ETL 流程?

ETL 是提取、转换和加载的缩写。 它用于指示从源检索数据并将其移动到数据仓库、大数据系统或商业智能平台的过程。

提取:这是从不同类型的存储系统或数据库中检索数据的过程。 这可能包括关系数据库、excel 文件、XML 文件等。

转换:在此步骤中,从存储系统访问的数据经过分析和操作,将数据转换为适合数据仓库系统的格式。

加载:这是通过优化资源使用最终将转换后的数据加载到存储库或数据仓库的地方。

问题 17:“插入或更新”和“更新或插入”有什么区别

两者之间的主要区别在于操作的顺序:

插入或更新:在这里,Talend 试图插入一条记录,如果发现存在匹配的主键,则对其进行更新。

更新或插入:在这里,Talend 首先寻求更新记录并寻找匹配的主键。 如果它没有找到现有的匹配键,则插入记录。

问题18:数据集成的TOS和大数据的TOS有什么区别

TOS for Big Data 为各种大数据技术提供支持,同时作为 TOS for DI 的超集。 TOS 数据集成的所有功能都可用于 TOS 大数据。

TOS for DI 仅支持 Java 代码。 另一方面,大数据 TOS 支持 Java 代码以及 MapReduce 代码。

问题 19:命名 Talend 支持的大数据技术?

Talend 支持的一些最常用的大数据技术包括:

  • 卡桑德拉
  • 沙发数据库
  • 谷歌存储
  • HBase
  • 高密度文件系统
  • 蜂巢
  • 地图数据库
  • MongoDB
  • Sqoop

问题 20:Pig 中的 Pig 脚本使用哪种语言?

猪拉丁语

问题 21:哪个是支持 Talend Studio 和 HBase 之间的事务协调的强制性服务?

动物园管理员服务

问题22:tContextLoad有什么用?

tContextLoad 是 Talend 的“杂项”组件的一部分。 使用 tContextLoad,您可以修改活动上下文中存在的值。 使用 tContextLoad 加载来自数据流的上下文。

当输入中定义的参数尚未在上下文中声明时,tContextLoad 会发送警告信号。

如果上下文未在传入数据中进行初始化,它还会发送警告。

结论

这将我们带到了文章的结尾。 我们希望这些问题和答案的快速复习能帮助您完成面试。

Talend 产品被吹捧为在 IT 市场上具有巨大潜力的下一代工具,被全球各种规模的公司所选择。 因此,建议任何想要掌握 IT 技术的人使用这种按需架构。 以上信息一定会帮助您开始您的学习之旅!

如果您有兴趣了解有关大数据的更多信息,请查看我们的 PG 大数据软件开发专业文凭课程,该课程专为在职专业人士设计,提供 7 多个案例研究和项目,涵盖 14 种编程语言和工具,实用的动手操作研讨会,超过 400 小时的严格学习和顶级公司的就业帮助。

在 upGrad 查看我们的其他软件工程课程。

提升自己并为未来做好准备

超过 400 小时的学习时间。 14 种语言和工具。 IIIT-B 校友身份。
IIIT Bangalore 大数据高级证书课程