您需要了解的不同类型的回归模型

已发表: 2022-01-07

回归问题在机器学习中很常见,解决它们的最常用技术是回归分析。 它基于数据建模,涉及找出最佳拟合线,该线穿过所有数据点,使线与每个数据点之间的距离最小。 虽然存在许多不同的回归分析技术,但线性回归和逻辑回归是最突出的。 我们使用的回归分析模型的类型最终将取决于所涉及数据的性质。

让我们进一步了解回归分析和不同类型的回归分析模型。

目录

什么是回归分析?

回归分析是一种预测建模技术,用于确定数据集中因(目标)变量和自变量之间的关系。 它通常在目标变量包含连续值且因变量和自变量共享线性或非线性关系时使用。 因此,回归分析技术可用于确定变量之间的因果关系、时间序列建模和预测。 例如,可以使用回归分析最好地研究公司的销售和广告支出之间的关系。

回归分析的类型

我们可以使用许多不同类型的回归分析技术来进行预测。 此外,每种技术的使用都受到诸如自变量数量、回归线形状和因变量类型等因素的驱动。

让我们了解一些最常用的回归分析方法:

1. 线性回归

线性回归是最广为人知的建模技术,它假设因变量 (Y) 和自变量 (X) 之间存在线性关系。 它使用回归线(也称为最佳拟合线)建立这种线性关系。 线性关系由方程 Y = c+m*X + e 表示,其中“c”是截距,“m”是直线的斜率,“e”是误差项。

线性回归模型可以是简单的(具有一个因变量和一个自变量)或多个(具有一个因变量和多个自变量)。

资源

2. 逻辑回归

当因变量是离散的时,可以使用逻辑回归分析技术。 换句话说,该技术用于估计互斥事件的概率,例如通过/失败、真/假、0/1 等。因此,目标变量只能具有两个值之一,而 sigmoid 曲线表示它与自变量的关系。 概率值介于 0 和 1 之间。

资源

3. 多项式回归

多项式回归分析技术对因变量和自变量之间的非线性关系建模。 它是多元线性回归模型的修改形式,但通过所有数据点的最佳拟合线是弯曲的而不是直线的。

资源

4. 岭回归

当数据显示多重共线性时,使用岭回归分析技术; 也就是说,自变量高度相关。 尽管多重共线性中的最小二乘估计是无偏的,但它们的方差大到足以使观察值偏离真实值。 岭回归通过在回归估计中引入一定程度的偏差来最小化标准误差。

岭回归方程中的 lambda (λ) 解决了多重共线性问题。

资源

资源

5. 套索回归

与岭回归一样,套索(最小绝对收缩和选择算子)回归技术会惩罚回归系数的绝对大小。 此外,套索回归技术使用变量选择,这导致系数值向绝对零收缩。

资源

6.分位数回归

分位数回归分析技术是线性回归分析的扩展。 当不满足线性回归的条件或数据存在异常值时使用。 分位数回归在统计学和计量经济学中得到应用。

资源

7. 贝叶斯线性回归

贝叶斯线性回归是机器学习中的一种回归分析技术,它利用贝叶斯定理来确定回归系数的值。 这种技术不是找出最小二乘,而是确定特征的后验分布。 因此,该技术比简单的线性回归具有更高的稳定性。

资源

8. 主成分回归

主成分回归技术通常用于分析具有多重共线性的多重回归数据。 与岭回归技术一样,主成分回归方法通过对回归估计施加一定程度的偏差来最小化标准误差。 该技术有两个步骤——首先,将主成分分析应用于训练数据,然后使用转换后的样本来训练回归量。

9. 偏最小二乘回归

偏最小二乘回归技术是一种快速有效的基于协方差的回归分析技术。 对于自变量数量较多且变量之间可能存在多重共线性的回归问题,它是有益的。 该技术将变量减少为一组较小的预测变量,然后用于执行回归。

10. 弹性网络回归

弹性网络回归技术是岭回归模型和套索回归模型的混合体,在处理高度相关的变量时非常有用。 它使用岭回归和套索回归方法的惩罚来正则化回归模型。

资源

概括

除了我们在这里讨论的回归分析技术之外,机器学习中还使用了其他几种类型的回归模型,例如生态回归、逐步回归、折刀回归和稳健回归。 所有这些不同类型的回归技术的具体用例取决于可用数据的性质和可以达到的准确度水平。 总体而言,回归分析有两个核心优势。 这些如下:

  • 它表示因变量和自变量之间的关系。
  • 它显示了自变量对因变量的影响强度。

前进方向:获得机器学习和人工智能理学硕士学位

您是否正在寻找一个全面的在线计划来为机器学习和人工智能事业做好准备?

upGrad与利物浦约翰摩尔斯大学和 IIIT 班加罗尔联合提供机器学习和人工智能理学硕士学位,以培养多才多艺的人工智能专业人士和数据科学家。

这个为期 20 个月的综合在线课程专为想要掌握深度学习、NLP、图形模型、强化学习等高级概念和技能的在职专业人士而设计。 此外,该计划旨在提供坚实的统计学基础以及 Python、Keras、TensorFlow、Kubernetes、MySQL 等关键编程语言和工具。

节目亮点:

  • 利物浦约翰摩尔斯大学硕士学位
  • 来自 IIIT 班加罗尔的执行 PGP
  • 40 多个现场会议、12 多个案例研究和项目、11 个编码作业、六个顶点项目
  • 25+ 场与行业专家的指导课程
  • 360 度的职业帮助和学习支持
  • 点对点网络机会

upGrad 拥有世界一流的教师、教学法、技术和行业专家,已成为南亚最大的高等教育科技平台,并影响了全球 500,000 多名在职专业人士。 今天注册 成为 upGrad 遍布 80 多个国家/地区的 40,000 多名全球学习者群的一员!

1.什么是回归测试定义?

回归测试被定义​​为一种软件测试,用于验证软件中的代码更改是否对现有产品的功能没有影响。 它确保产品在新功能或对其现有功能的任何更改方面表现良好。 回归测试涉及对先前执行的测试用例的部分或全部选择,这些测试用例被重新执行以检查现有功能的工作条件。

回归模型的目的是什么?

回归分析是出于两个目的之一进行 - 在有关自变量的一些信息可用的情况下预测因变量的值或预测自变量对因变量的影响。

回归分析是出于两个目的之一进行 - 在有关自变量的一些信息可用的情况下预测因变量的值或预测自变量对因变量的影响。

适当的样本量对于确保结果的准确性和有效性至关重要。 尽管没有经验法则来确定回归分析中的适当样本量,但一些研究人员认为每个变量至少有 10 个观察值。 因此,如果我们使用三个自变量,最小样本量将是 30。许多研究人员还遵循统计公式来确定样本量。