前 20 名最受欢迎的数据建模面试问题和答案 [适合初学者和有经验者]

已发表: 2021-06-10

数据科学是当前就业市场中最赚钱的职业领域之一。随着竞争的加剧，求职面试也越来越具有创新性。雇主希望测试候选人的概念知识和对相关科目和技术工具的实际理解。在这篇博客中，我们将讨论一些相关的数据建模面试问题，以帮助您留下深刻的第一印象！

顶级数据建模面试问题和答案

这里有 20 个数据建模面试问题以及示例答案，将带您了解该主题的初级、中级和高级级别。

1. 什么是数据建模？ 列出数据模型的类型。

数据建模涉及创建可用数据的表示（或模型）并将其存储在数据库中。

数据模型包含产生用户想要跟踪的对象和属性的实体（例如客户、产品、制造商和销售商）。例如，客户名称是客户实体的一个属性。这些细节进一步采取数据库中表的形式。

有三种基本类型的数据模型，即：

概念：数据架构师和业务利益相关者创建此模型来组织、范围和定义业务概念。它规定了一个系统应该包含什么。
逻辑：这个模型由数据架构师和业务分析师组合在一起，映射技术规则和数据结构，从而确定系统的实现，无论是数据库管理系统还是 DBMS。
物理：数据库架构师和开发人员创建此模型来描述系统应如何与特定 DBMS 一起运行。

2. 什么是表？ 解释事实和事实表。

表格以行（水平对齐）和列（垂直对齐）保存数据。行也称为记录或元组，而列可以称为字段。

事实是定量数据，例如“净销售额”或“应付金额”。事实表存储数字数据以及维度表中的一些属性。

3. (i) 维度 (ii) 粒度 (iv) 数据稀疏性 (v) 散列 (v) 数据库管理系统是什么意思？

(i) 维度代表定性数据，例如类别和产品。因此，包含产品数据的维度表将具有产品类别、产品名称等属性。

(ii) 粒度是指存储在表中的信息级别。它可以是高或低，表分别包含事务级数据和事实表。

(iii) 数据稀疏性是指数据库中空单元格的数量。换句话说，它说明了我们对于数据模型中的特定实体或维度有多少数据。信息不足会导致大型数据库，因为需要更多空间来保存聚合。

(iv) 散列技术有助于搜索索引值以检索所需数据。它用于借助索引结构计算数据记录的直接位置。

(v) 数据库管理系统 (DBMS) 是包含一组用于操作数据库的程序的软件。它的主要目的是存储和检索用户数据。

4. 定义标准化。 它的目的是什么？

规范化技术将较大的表划分为较小的表，使用不同的关系将它们链接起来。它以最小化数据的依赖性和冗余性的方式组织表。

可以有五种类型的标准化，即：

第一范式
第二范式
第三范式
Boyce-Codd 第四范式
第五范式

5. 非规范化在数据建模中的用途是什么？

非规范化用于构建数据仓库，尤其是在涉及大量表的情况下。此策略用于先前规范化的数据库。

6. 阐明主键、复合主键、外键和代理键之间的区别。

主键是每个数据表中的支柱。它表示一列或一组列，并允许您识别表的行。主键值不能为空。当应用多个列作为主键的一部分时，它被称为复合主键。

另一方面，外键是一组属性，允许您链接父表和子表。子表中的外键值被引用为父表中的主键值。

在用户没有自然主键的情况下，代理键用于标识每条记录。这个人工键通常表示为一个整数，并且对表中包含的数据没有任何意义。

7.比较OLTP系统和OLAP流程。

OLTP 是一种在线事务系统，它依赖于传统数据库来执行实时业务操作。 OLTP 数据库有规范化的表，响应时间通常在毫秒内。

相反，OLAP 是一个用于数据分析和检索的在线过程。它旨在按类别和属性分析大量业务度量。与 OLTP 不同，OLAP 使用数据仓库、非规范化表，并以几秒到几分钟的响应时间运行。

8. 列出标准数据库模式设计。

模式是数据关系和结构的图表或说明。数据建模中有两种模式设计，即星型模式和雪花模式。

星型模式包括一个中心事实表和几个与之相连的维度表。维度表的主键是事实表中的外键。
雪花模式与星型模式具有相同的事实表，但标准化程度更高。维度表被规范化或具有多层，类似于雪花。

9. 解释离散和连续数据。

离散的数据是有限的、有定义的，比如性别、电话号码等。另一方面，连续的数据是有序变化的；例如，年龄、温度等。

10.什么是序列聚类和时间序列算法？

序列聚类算法收集：

具有事件的数据序列，以及
相关或相似的路径。

时间序列算法预测数据表中的连续值。例如，它可以根据员工一段时间内的表现预测销售和利润数据。

现在您已经复习了基础知识，这里有十个常见的数据建模问题供您练习！

11. 描述数据仓库的过程。

数据仓库连接和管理来自异构来源的原始数据。这种数据收集和分析过程允许企业在一个地方从不同位置获得有意义的见解，这构成了商业智能的核心。

12. 数据集市和数据仓库之间的主要区别是什么？

数据集市通过专注于单一业务领域并遵循自下而上的模型，为业务增长提供战术决策。另一方面，数据仓库通过强调多个领域和数据源并采用自上而下的方法来促进战略决策。

13. 提及在数据模型中发现的关键关系类型。

关键关系可分为：

标识：用粗线连接父表和子表。子表的引用列是主键的一部分。
Non-identifying：表之间用虚线连接，表示子表的引用列不是主键的一部分。
Sef-recursive：表的一个独立列以递归关系连接到主键。

14.您在建模数据时遇到的一些常见错误是什么？

构建广泛的数据模型可能会变得很棘手。当表运行高于 200 时，失败的可能性也会增加。对于数据建模者来说，对业务任务有足够的可行知识也很重要。否则，数据模型就有失控的风险。

不必要的代理键带来了另一个问题。不能少用它们，但只有在自然键不能满足主键的作用时才可以使用。

人们还可能遇到不适当的非规范化情况，其中维护数据冗余可能成为一项相当大的挑战。

15. 讨论分层 DBMS。 这种数据模型的缺点是什么？

分层 DBMS 以树状结构存储数据。该格式使用父子关系，其中父母可能有很多孩子，但孩子只能有一个父母。

该模型的缺点包括：

对不断变化的业务需求缺乏灵活性和适应性；
跨部门、跨机构和垂直沟通的问题；
数据不统一的问题。

16. 详述两类数据建模技术。

实体关系 (ER) 和统一建模语言 (UML) 是两种标准的数据建模技术。

ER 在软件工程中用于生成信息系统的数据模型或图表。 UML 是一种用于数据库开发和建模的通用语言，有助于可视化系统设计。

17. 什么是垃圾维度？

垃圾维度是通过将低基数属性（指标、布尔值或标志值）组合成一个维度而产生的。这些值从其他表中删除，然后分组或“垃圾”到抽象维度表中，这是在数据仓库中启动“快速变化维度”的一种方法。

18.陈述一些流行的DBMS软件。

MySQL、Oracle、Microsoft Access、dBase、SQLite、PostgreSQL、IBM DB2 和 Microsoft SQL Server 是现代软件开发领域最常用的一些 DBMS 工具。

19. 使用数据建模的优缺点是什么？

使用数据挖掘的优点：

通过规范化和定义属性，可以更好地管理业务数据。
数据挖掘允许跨系统集成数据并减少冗余。
它为高效的数据库设计让路。
它支持跨部门合作和团队合作。
它允许轻松访问数据。

使用数据建模的缺点：

数据建模有时会使系统更加复杂。
它具有有限的结构依赖性。

20. 解释数据挖掘和预测建模分析。

数据挖掘是一门多学科的技能。它涉及应用人工智能 (AI)、机器学习 (ML) 和数据库技术等领域的知识。在这里，从业者关注的是揭开数据的奥秘和发现以前未知的关系。

预测建模是指测试和验证可以预测特定结果的模型。这个过程在人工智能、机器学习和统计学中有几个应用。

有抱负的数据建模师的职业见解

无论您是在寻找一份新工作、升职还是职业转型，提升相关学科的技能都可以大大提高您的招聘机会。

您应该考虑查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划是为在职专业人士创建的，并提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、与行业导师的一对一, 400 多个小时的学习和顶级公司的工作协助。

有了这个，我们结束了关于数据建模工作和面试的讨论。我们确信，上述建模面试问题和答案的数据将帮助您理清问题领域并在安置过程中表现更好！

数据建模师一年能赚多少钱？

有很多因素会真正影响数据建模领域任何人的薪水。平均而言，数据建模师的薪水为卢比。每年12,00,000。这在很大程度上取决于与您合作的公司。即使您是作为数据建模者开始的，最低的套餐也是卢比。每年 600,000 元，而最高的套餐可以预期高达卢比。每年20,00,000。

数据建模面试难吗？

数据建模是一个新兴领域，市场需求巨大。另一方面，精通数据建模的专业人士数量相当少。如果你没有做好充分的准备，面试可能看起来有点困难，但你可以期待一个体面的面试，并做好适当的准备。
除了清除数据建模的基础知识外，您还应该更喜欢了解一些最常见的面试问题。这将使您更容易回答面试中提出的问题，因为您已经对所提出的不同问题以及回答方式有所了解。

我需要具备哪些技能才能成为数据建模师？

成为数据建模师所需的技能与进入系统管理或编程所需的技能完全不同。通常，这些类型的工作需要技术技能，但这里的情况有所不同。成为数据建模师需要精通逻辑方面。需要培养的一些关键技能是：
1. 概念设计
2. 内部沟通
3. 用户沟通
4.抽象思维
即使你在技术方面不是很精通，如果你能抽象地和概念地思考，你也可以找到一份数据建模师的工作。