25 个机器学习面试问题和答案——线性回归

已发表: 2022-09-08

在面试中用常用的机器学习算法测试数据科学有志者是一种常见的做法。 这些传统算法是线性回归、逻辑回归、聚类、决策树等。数据科学家应该对这些算法有深入的了解。

我们咨询了来自不同组织的招聘经理和数据科学家,以了解他们在面试中提出的典型机器学习问题。 根据他们的广泛反馈,准备了一组问题和答案,以帮助有抱负的数据科学家进行对话。 线性回归面试问题是机器学习面试中最常见的问题。 这些算法的问答将在一系列四篇博客文章中提供。

目录

最佳机器学习课程和在线人工智能课程

LJMU 机器学习与人工智能理学硕士 来自 IIITB 的机器学习和人工智能高级研究生课程
IIITB 机器学习和自然语言处理高级证书课程 IIITB 机器学习和深度学习高级证书课程 马里兰大学数据科学与机器学习高级管理研究生课程
要探索我们所有的课程,请访问下面的页面。
机器学习课程

每篇博文都将涵盖以下主题:-

  1. 线性回归
  2. 逻辑回归
  3. 聚类
  4. 与所有算法有关的决策树和问题

让我们开始线性回归吧!

1. 什么是线性回归?

简单来说,线性回归是一种寻找与给定数据拟合的最佳直线的方法,即寻找自变量和因变量之间的最佳线性关系。
用技术术语来说,线性回归是一种机器学习算法,可以在任何给定数据上找到自变量和因变量之间的最佳线性拟合关系。 它主要通过残差平方和方法完成。

需求机器学习技能

人工智能课程 画面课程
自然语言处理课程 深度学习课程

2. 陈述线性回归模型中的假设。

线性回归模型中有三个主要假设:

  1. 关于模型形式的假设:
    假设因变量和自变量之间存在线性关系。 它被称为“线性假设”。
  2. 关于残差的假设:
    1. 正态假设:假设误差项 ε (i)是正态分布的。
    2. 零均值假设:假设残差的均值为零。
    3. 恒定方差假设:假设残差项具有相同(但未知)的方差,σ 2此假设也称为同质性或同方差性假设。
    4. 独立误差假设:假设残差项彼此独立,即它们的成对协方差为零。
  3. 关于估计量的假设:
    1. 自变量的测量没有误差。
    2. 自变量彼此线性独立,即数据中不存在多重共线性。

解释:

  1. 这是不言自明的。
  2. 如果残差不是正态分布的,它们的随机性就会丢失,这意味着模型无法解释数据中的关系。
    此外,残差的平均值应为零。
    Y (i)i = β 0 + β 1 x (i) + ε (i)
    这是假设的线性模型,其中 ε 是残差项。
    E(Y) = E( β 0 + β 1 x (i) + ε (i) )
    = E( β 0 + β 1 x (i) + ε (i) )
    如果残差的期望(均值) E(ε (i) ) 为零,则目标变量和模型的期望变得相同,这是模型的目标之一。
    残差(也称为误差项)应该是独立的。 这意味着残差和预测值之间或残差本身之间没有相关性。 如果存在某种相关性,则意味着存在回归模型无法识别的某种关系。
  3. 如果自变量彼此不是线性独立的,则最小二乘解(或正态方程解)的唯一性就丧失了。

加入来自世界顶级大学的在线人工智能课程——硕士、高管研究生课程和 ML 和 AI 高级证书课程,以加快您的职业生涯。

3.什么是特征工程? 在建模过程中如何应用它?

特征工程是将原始数据转换为特征的过程,这些特征可以更好地代表预测模型的潜在问题

,从而提高了对看不见的数据的模型准确性。
通俗地说,特征工程意味着开发新特征,可以帮助您以更好的方式理解和建模问题。 特征工程有两种类型——业务驱动和数据驱动。 业务驱动的特征工程从业务角度围绕包含特征展开。 这里的工作是将业务变量转换为问题的特征。 在数据驱动的特征工程的情况下,您添加的特征没有任何重要的物理解释,但它们有助于模型预测目标变量。

仅供参考:免费的 nlp 课程!
要应用特征工程,必须完全熟悉数据集。 这涉及了解给定数据是什么,它表示什么,原始特征是什么等。您还必须对问题有一个清晰的概念,例如哪些因素会影响目标变量,变量的物理解释是什么, ETC。

5 机器学习的突破性应用

4. 正则化有什么用? 解释 L1 和 L2 正则化。

正则化是一种用于解决模型过度拟合问题的技术。 当在训练数据上实现一个非常复杂的模型时,它会过拟合。 有时,简单模型可能无法概括数据并且复杂模型会过拟合。 为了解决这个问题,使用了正则化。
正则化只不过是将系数项(beta)添加到成本函数中,以使这些项受到惩罚并且幅度很小。 这本质上有助于捕捉数据中的趋势,同时通过不让模型变得过于复杂来防止过度拟合。

  • L1 或 LASSO 正则化:在这里,系数的绝对值被添加到成本函数中。 这可以从以下等式中看出; 突出显示的部分对应于 L1 或 LASSO 正则化。 这种正则化技术给出了稀疏的结果,这也导致了特征选择。

  • L2 或 Ridge 正则化:在这里,系数的平方被添加到成本函数中。 这可以在以下等式中看到,其中突出显示的部分对应于 L2 或 Ridge 正则化。

5、如何选择参数学习率(α)的取值?

选择学习率的值是一件棘手的事情。 如果值太小,梯度下降算法需要很长时间才能收敛到最优解。 另一方面,如果学习率的值很高,梯度下降将超过最优解,并且很可能永远不会收敛到最优解。
为了克服这个问题,您可以在一系列值上尝试不同的 alpha 值,并绘制成本与迭代次数的关系图。 然后,基于图表,可以选择与显示快速下降的图表对应的值。

上述图表是理想成本与迭代次数的关系曲线。 请注意,成本最初随着迭代次数的增加而降低,但在某些迭代之后,梯度下降收敛并且成本不再降低。
如果你看到成本随着迭代次数的增加而增加,那么你的学习率参数很高,需要降低它。

6、如何选择正则化参数(λ)的取值?

选择正则化参数是一件棘手的事情。 如果 λ 的值过高,会导致回归系数 β 的值过小从而导致模型欠拟合(高偏差 - 低方差)。 另一方面,如果 λ 的值为 0(非常小),则模型将倾向于过度拟合训练数据(低偏差 - 高方差)。
没有合适的方法来选择 λ 的值 您可以做的是拥有一个数据子样本,并在不同的集合上多次运行该算法。 在这里,人们必须决定可以容忍多少变化。 一旦用户对方差感到满意,就可以为整个数据集选择 λ 值。
需要注意的一点是,此处选择的 λ 值对于该子集是最佳的,而不是对于整个训练数据。

7. 我们可以使用线性回归进行时间序列分析吗?

可以使用线性回归进行时间序列分析,但结果并不乐观。 因此,一般不建议这样做。 这背后的原因是——

  1. 时间序列数据主要用于预测未来,但线性回归很少为未来预测提供好的结果,因为它并不意味着外推。
  2. 大多数情况下,时间序列数据具有某种模式,例如在高峰时段、节日季节等,这很可能在线性回归分析中被视为异常值。

8. 线性回归的残差之和接近什么值? 证明合法。

Ans线性回归的残差之和为 0。线性回归的工作假设是误差(残差)呈正态分布,均值为 0,即

Y = β T X + ε

这里,Y 是目标或因变量,
β是回归系数的向量,
X 是包含所有特征作为列的特征矩阵,
ε 是残差项,使得ε ~ N(0,σ 2 )。
因此,所有残差的总和是残差的期望值乘以数据点的总数。 由于残差的期望为 0,因此所有残差项的总和为零。
:N(μ,σ 2 ) 是具有均值 μ 和标准偏差 σ 2的正态分布的标准符号

9. 多重共线性如何影响线性回归?

Ans多重共线性发生在一些自变量彼此高度相关(正或负)时。 这种多重共线性会导致一个问题,因为它违背了线性回归的基本假设。 多重共线性的存在不会影响模型的预测能力。 因此,如果您只需要预测,多重共线性的存在不会影响您的输出。 但是,如果您想从模型中汲取一些见解并将其应用到某些业务模型中,则可能会出现问题。
多重共线性导致的主要问题之一是它会导致错误的解释并提供错误的见解。 如果一个特征改变一个单位,线性回归的系数表明目标值的平均变化。 因此,如果存在多重共线性,这并不成立,因为改变一个特征会导致相关变量发生变化,从而导致目标变量发生变化。 这会导致错误的见解,并可能对企业产生危险的结果。
处理多重共线性的一种非常有效的方法是使用 VIF(方差膨胀因子)。 特征的 VIF 值越高,该特征的线性相关性越高。 只需删除 VIF 值非常高的特征,然后在剩余的数据集上重新训练模型。

10.线性回归的范式(方程)是什么? 什么时候应该优先于梯度下降法?

线性回归的正规方程是 -

β=(X T X) -1 X T Y

这里, Y=β T X是线性回归的模型,
Y是目标或因变量,
β是回归系数的向量,使用正规方程得出,
X是包含所有特征作为列的特征矩阵。
请注意, X矩阵的第一列由全 1 组成。 这是为了合并回归线的偏移值。
梯度下降与正规方程的比较:

梯度下降正规方程
需要对 alpha 进行超参数调整(学习参数) 没有这种需要
这是一个迭代的过程这是一个非迭代过程
O(kn 2 )时间复杂度由于X T X的评估, O(n 3 ) 时间复杂度
当 n 非常大时首选对于较大的 n 值变得非常慢

这里,“ k ”是梯度下降的最大迭代次数,“ n ”是训练集中数据点的总数。
显然,如果我们有大量训练数据,则不推荐使用正规方程。 对于' n '的小值,正规方程比梯度下降更快。
什么是机器学习及其重要性

11. 你在数据的不同子集上运行回归,在每个子集中,某个变量的 beta 值变化很大。 这里可能是什么问题?

这种情况意味着数据集是异构的。 因此,为了克服这个问题,应该将数据集聚类为不同的子集,然后为每个聚类构建单独的模型。 处理这个问题的另一种方法是使用非参数模型,例如决策树,它可以非常有效地处理异构数据。

12. 你的线性回归没有运行,并表明回归系数的最佳估计数是无限的。 有什么问题?

当某些变量之间存在完美的相关性(正或负)时,就会出现这种情况。 在这种情况下,系数没有唯一值,因此出现了给定条件。

13. 调整后的 R 2是什么意思 它与 R 2有何不同

调整的 R 2与 R 2一样,代表回归线周围的点数。 也就是说,它显示了模型对训练数据的拟合程度。 调整后的 R 2的公式 是 -

这里,n 是数据点的数量,k 是特征的数量。
R 2的一个缺点 是它总是会随着新功能的添加而增加,无论新功能是否有用。 调整后的 R 2 克服了这个缺点。 仅当新添加的特征在模型中发挥重要作用时,调整后的 R 2的值才会增加。

14. 你如何解释残差与拟合值曲线?

残差与拟合值图用于查看预测值和残差是否具有相关性。 如果残差呈正态分布,均值围绕拟合值且方差恒定,则我们的模型运行良好; 否则,模型存在一些问题。
在大范围的数据集上训练模型时最常见的问题是异方差性(这在下面的答案中进行了解释)。 通过绘制残差与拟合值曲线可以很容易地看出异方差的存在。

15.什么是异方差? 后果是什么,如何克服?

当不同的子群体具有不同的变异性(标准差)时,随机变量被称为异方差。
异方差的存在在回归分析中引起了某些问题,因为假设表明误差项是不相关的,因此方差是恒定的。 异方差的存在通常可以通过残差与拟合值的锥形散点图的形式看到。
线性回归的基本假设之一是数据中不存在异方差性。 由于违反假设,普通最小二乘 (OLS) 估计器不是最佳线性无偏估计器 (BLUE)。 因此,与其他线性无偏估计器 (LUE) 相比,它们没有给出最小的方差。
没有固定的程序来克服异方差性。 但是,有一些方法可能会导致异方差性降低。 他们是 -

  1. 对数据进行对数化:呈指数增长的序列通常会导致变异性增加。 这可以使用对数转换来克服。
  2. 使用加权线性回归:这里,OLS 方法应用于 X 和 Y 的加权值。一种方法是附加与因变量的大小直接相关的权重。
无监督机器学习如何工作?

16. 什么是 VIF? 你是怎么计算的?

方差膨胀因子 (VIF) 用于检查数据集中是否存在多重共线性。 计算如下——
这里,VIF j是第 j变量的 VIF 值,
Rj 2 当该变量针对所有其他自变量进行回归时模型的 R 2值。
如果变量的 VIF 值较高,则意味着 R 2 相应模型的值很高,即其他自变量能够解释该变量。 简单来说,变量线性依赖于其他一些变量。

17. 你怎么知道线性回归适用于任何给定的数据?

要查看线性回归是否适用于任何给定数据,可以使用散点图。 如果关系看起来是线性的,我们可以选择线性模型。 但如果不是这样,我们必须应用一些变换来使关系线性化。 在简单或单变量线性回归的情况下,绘制散点图很容易。 但在多元线性回归的情况下,可以绘制二维成对散点图、旋转图和动态图。

18. 如何在线性回归中使用假设检验?

假设检验可以在线性回归中进行,目的如下:

  1. 检查预测变量对目标变量的预测是否显着。 两种常见的方法是——
    1. 通过使用 p 值:
      如果变量的 p 值大于某个限制(通常为 0.05),则该变量在目标变量的预测中不显着。
    2. 通过检查回归系数的值:
      如果一个预测变量对应的回归系数的值为零,则该变量在目标变量的预测中不显着,与其没有线性关系。
  2. 检查计算的回归系数是否是实际系数的良好估计量。

19. 解释关于线性回归的梯度下降。

梯度下降是一种优化算法。 在线性回归中,它用于优化成本函数并找到与成本函数的优化值对应的βs(估计量)的值。
梯度下降就像一个球滚下图形(忽略惯性)。 球沿着最大坡度的方向移动并停在平坦表面(最小值)。

在数学上,线性回归的梯度下降的目的是找到
ArgMin J(Θ 0 1 ),其中 J(Θ 0 1 ) 是线性回归的成本函数。 它是由——

这里, h是线性假设模型,h=Θ 0 + Θ 1 x, y是真实输出, m是训练集中数据点的个数。
梯度下降从一个随机解开始,然后根据梯度的方向,将解更新为成本函数具有较低值的新值。
更新是:
重复直到收敛

20. 你如何解释线性回归模型?

线性回归模型很容易解释。 该模型具有以下形式:

这个模型的意义在于人们可以很容易地解释和理解边际变化及其后果。 例如,如果x 0的值增加 1 个单位,保持其他变量不变,则y值的总增加量将是β i 在数学上,截距项 ( β 0 ) 是当所有预测项都设置为零或不考虑时的响应。
这 6 种机器学习技术正在改善医疗保健

21. 什么是稳健回归?

回归模型本质上应该是稳健的。 这意味着随着一些观察值的变化,模型不应发生剧烈变化。 此外,它不应该受到异常值的太大影响。
具有 OLS(普通最小二乘法)的回归模型对异常值非常敏感。 为了克服这个问题,我们可以使用 WLS(加权最小二乘法)方法来确定回归系数的估计量。 在这里,拟合中的离群值或高杠杆点被赋予较少的权重,从而降低了这些点的影响。

22. 模型拟合前建议观察哪些图表?

在拟合模型之前,必须对数据有充分的了解,比如变量中的趋势、分布、偏度等是什么。 可以使用直方图、箱线图和点图等图形来观察变量的分布。 除此之外,还必须分析因变量和自变量之间的关系。 这可以通过散点图(在单变量问题的情况下)、旋转图、动态图等来完成。

23. 什么是广义线性模型?

广义线性模型是普通线性回归模型的导数。 GLM 在残差方面更灵活,可用于线性回归似乎不合适的地方。 GLM 允许残差分布不同于正态分布。 它通过允许线性模型使用链接函数链接到目标变量来概括线性回归。 模型估计是使用最大似然估计的方法完成的。

24. 解释偏差-方差权衡。

偏差是指模型预测的值与实际值之间的差异。 这是一个错误。 ML 算法的目标之一是具有低偏差。
方差是指模型对训练数据集中小波动的敏感度。 ML 算法的另一个目标是具有低方差。
对于不完全线性的数据集,不可能同时具有低偏差和方差。 直线模型将具有低方差但高偏差,而高次多项式将具有低偏差但高方差。
在机器学习中,偏差和方差之间的关系是不可避免的。

  1. 减少偏差会增加方差。
  2. 减小方差会增加偏差。

因此,两者之间存在权衡; ML 专家必须根据分配的问题决定可以容忍多少偏差和方差。 在此基础上,构建最终模型。

25. 学习曲线如何帮助创建更好的模型?

学习曲线表明存在过拟合或欠拟合。
在学习曲线中,针对训练数据点的数量绘制了训练误差和交叉验证误差。 典型的学习曲线如下所示:

如果训练误差和真实误差(交叉验证误差)收敛到相同的值,并且对应的误差值很高,则表明模型欠拟合,存在高偏差。

机器学习面试以及如何应对

机器学习面试可以根据类型或类别而有所不同,例如一些招聘人员会问许多线性回归面试问题 在面试机器学习工程师的角色时,他们可以专注于编码、研究、案例研究、项目管理、演示、系统设计和统计等类别。 我们将重点介绍最常见的类别类型以及如何为它们做准备。

  1. 编码

编码和编程是机器学习面试的重要组成部分,经常用于筛选申请人。 要在这些面试中表现出色,您需要具备扎实的编程能力。 编码面试通常需要 45 到 60 分钟,并且只有两个问题。 面试官提出这个话题,并预计申请人会在尽可能短的时间内解决这个问题。

如何准备——您可以通过充分了解数据结构、时间和空间的复杂性、管理技能以及理解和解决问题的能力来为这些面试做准备。 upGrad有一门很棒的软件工程课程,可以帮助您提高编码技能并在面试中取得成功。

2.机器学习

您对机器学习的理解将通过面试进行评估。 根据就业需要,可能会涵盖卷积层、循环神经网络、生成对抗网络、语音识别和其他主题。

如何准备 - 为了能够在这次面试中取得好成绩,您必须确保您对工作角色和职责有透彻的了解。 这将帮助您确定必须研究的 ML 规范。 但是,如果您没有遇到任何规范,则必须深入了解基础知识。 upGrad提供的深度学习 ML 课程可以帮助您。 您还可以研究有关 ML 和 AI 的最新文章以了解它们的最新趋势,并且您可以定期将它们纳入其中。

3.筛选

这次采访有点非正式,通常是采访的初始点之一。 未来的雇主通常会处理它。 这次面试的主要目标是让申请人了解业务、角色和职责。 在更非正式的气氛中,候选人也会被询问他们的过去,以确定他们感兴趣的领域是否与职位相匹配。

如何准备——这是面试中非常非技术性的部分。 所有这一切都需要你的诚实和你在机器学习方面的专业基础。

4. 系统设计

这样的访谈从头到尾测试一个人创建完全可扩展的解决方案的能力。 大多数工程师都专注于一个问题,以至于他们经常忽略更广泛的情况。 系统设计面试要求了解结合起来产生解决方案的众多元素。 这些元素包括前端布局、负载平衡器、缓存等。 当这些问题得到充分理解时,一个有效且可扩展的端到端系统就更容易开发。

如何准备——了解系统设计项目的概念和组件。 使用现实生活中的例子向面试官解释结构,以便更好地理解项目。

流行的机器学习和人工智能博客

物联网:历史、现在和未来 机器学习教程:学习机器学习 什么是算法? 简单易行
印度机器人工程师的薪水:所有角色 机器学习工程师的一天:他们在做什么? 什么是物联网(物联网)
排列与组合:排列与组合之间的区别 人工智能和机器学习的 7 大趋势 使用 R 进行机器学习:您需要知道的一切

如果训练和交叉验证误差的收敛值之间存在显着差距,即交叉验证误差显着高于训练误差,则表明模型过度拟合训练数据并且存在高方差.
机器学习工程师:神话与现实

这就是本系列的第一部分的结尾。 继续阅读本系列的下一部分,其中包括基于逻辑回归的问题 随时发表您的评论。
合着者 – Ojas Agarwal

您可以查看我们的机器学习和人工智能执行 PG 计划该计划提供实用的实践研讨会、一对一的行业导师、12 个案例研究和作业、IIIT-B 校友身份等。

你对正则化的理解是什么?

正则化是处理模型过拟合问题的一种策略。 当将复杂的模型应用于训练数据时,就会发生过拟合。 基本模型有时可能无法泛化数据,复杂模型可能会过度拟合数据。 正则化用于缓解这个问题。 正则化是将系数项(beta)添加到最小化问题的过程,以使这些项受到惩罚并具有适度的幅度。 这本质上有助于识别数据模式,同时还通过防止模型变得过于复杂来防止过度拟合。

你对特征工程了解多少?

将原始数据更改为能够更好地描述预测模型的潜在问题的特征的过程,从而提高了对看不见的数据的模型准确性,称为特征工程。 通俗地说,特征工程是指创建额外的特征,这些特征可能有助于更好地理解和建模问题。 特征工程有两种类型:业务驱动和数据驱动。 从商业角度整合特征是业务驱动的特征工程的重点。

什么是偏差-方差权衡?

模型预测值与实际值之间的差距称为偏差。 这是一个错误。 低偏差是 ML 算法的目标之一。 模型对训练数据集微小变化的脆弱性称为方差。 低方差是 ML 算法的另一个目标。 在不是完全线性的数据集中不可能同时具有低偏差和低方差。 直线模型的方差低,但偏差大,而高次多项式的方差低,但偏差大。 在机器学习中,偏差和变异之间的联系是不可避免的。