用示例解释线性回归

已发表: 2021-10-13

线性回归是建立数据集变量之间关系的最常用算法之一。 数学模型是数据科学家进行预测分析的必要工具。 该博客将向您介绍基本概念,并讨论线性回归示例。

目录

什么是回归模型?

回归模型通过将一条线拟合到观察到的数据来描述数据集变量之间的关系。 这是一种数学分析,可以找出哪些变量最有影响和最重要。 它还决定了我们对所涉及的因素的确定程度。 这两种变量是:

  • Dependent:您试图预测或理解的因素。
  • 独立:您怀疑对因变量有影响的因素。

当因变量是定量的时,使用回归模型。 在逻辑回归的情况下,它可能是二元的。 但在这篇博客中,我们将主要关注两个变量都是定量的线性回归模型。

假设您有过去三年的月销售额和月平均降雨量数据。 假设您将这些信息绘制在图表上。 y 轴表示销售数量(因变量),x 轴表示总降雨量。 图表上的每个点都会显示特定月份的降雨量以及相应的销售数字。

如果您再看一眼数据,您可能会注意到一种模式。 假设在下雨的日子里销售额会更高。 但是要估计在下雨一定量(比如 3 或 4 英寸)时您通常会卖多少是很棘手的。 如果您在图表上所有数据点的中间画一条线,您可以获得一定程度的确定性。

如今,Excel 和 SPSS、R 或 STATA 等统计软件可以帮助您绘制一条最适合手头数据的线。 此外,您还可以输出解释直线斜率的公式。

考虑上面例子的这个公式:Y = 200 + 3X。 它告诉您,当根本不下雨时(即 X=0 时),您卖出了 200 个单位。 假设变量在我们前进时保持不变,每增加一英寸的降雨将导致平均销售量增加三个单位。 如果下雨 1 英寸,您将销售 203 个单位,如果下雨 2 英寸,则销售 206 个单位,如果下雨 3 英寸,则销售 209 英寸,依此类推。

通常,回归线公式还包括一个误差项(Y = 200 + 3 X + 误差项)。 它考虑到独立预测变量可能并不总是因变量的完美预测变量这一现实。 该行仅根据可用数据为您提供估计。 误差项越大,您的回归线就越不确定。

线性回归基础

简单的线性回归模型使用一条直线来估计两个定量变量之间的关系。 如果您有多个自变量,则将使用多元线性回归。

简单的线性回归分析涉及两件事。 首先,它告诉您历史数据的相关因素和独立因素之间的关系强度。 其次,它在自变量的某个值处为您提供因变量的值。

考虑这个线性回归示例。 一位有兴趣了解个人收入如何影响他们的幸福水平的社会研究人员执行了一个简单的回归分析,以查看是否存在线性关系。 研究人员通过调查特定地理位置的人来获取因变量(幸福)和自变量(收入)的定量值。

例如,数据包含来自印度马哈拉施特拉邦的 500 人的收入数据和幸福水平(从 1 到 10 排名)。 然后,研究人员将绘制数据点并拟合回归线,以了解受访者的收入对其幸福感的影响程度。

线性回归分析基于对数据的一些假设。 有:

  • 因变量和自变量之间关系的线性,即最佳拟合线是直的,而不是弯曲的。)
  • 方差的同质性,即预测误差的大小,在自变量的不同值之间没有显着变化。
  • 数据集中观察的独立性,指的是没有隐藏的关系。
  • 因变量的数据分布的正态性。 您可以使用 R 中的 hist() 函数进行检查。

线性回归背后的数学

y = c + ax 是一个标准方程,其中 y 是输出(我们想要估计),x 是输入变量(我们知道),a 是直线的斜率,c 是常数。

在这里,输出根据输入线性变化。 斜率决定了 x 对 y 值的影响程度。 当 x 为 nil 时,常数是 y 的值。

让我们通过另一个线性回归示例来理解这一点。 假设您在一家汽车公司工作,想研究印度的乘用车市场。 假设国家 GDP 影响乘用车销售。 为了更好地规划业务,您可能需要找出在该国销售的汽车数量与 GDP 之间的线性方程

为此,您需要逐年乘用车销售的样本数据和每年的 GDP 数据。 你可能会发现,当年的 GDP 会影响明年的销量:哪一年 GDP 越低,第二年的汽车销量就越低。

要为机器学习分析准备这些数据,您需要做更多的工作。

  • 请从方程 y = c + ax 开始,其中 y 是一年内售出的汽车数量,x 是前一年的 GDP。
  • 要找出上述问题中的 c 和 an,可以使用 Python 创建模型。

查看本教程以了解分步方法

如果您要在 R 中执行简单的线性回归,则解释和报告结果会变得更加容易。

对于相同的线性回归示例,让我们将等式更改为 y=B0 + B1x + e。 同样,y 是因变量,x 是自变量或已知变量。 B0 是常数或截距,B1 是回归系数的斜率,e 是估计的误差。

像 R 这样的统计软件可以通过数据找到最佳拟合线,并搜索使模型总误差最小的 B1。

请按照以下步骤开始:

  • 将乘用车销售数据集加载到 R 环境中。
  • 运行命令生成描述乘用车销量与 GDP 之间关系的线性模型。
    • sales.gdp.lm <- lm(gdp ~ sales, data = sales.data)
  • 使用 summary() 函数以表格形式查看最重要的线性模型参数。
    • 摘要(sales.gdp.lm)

注意:输出将包含调用、残差和系数等结果。 “调用”表说明了使用的公式。 “残差”详细说明了中位数、四分位数、最小值和最大值,以表明模型与真实数据的拟合程度。 “系数”表的第一行估计 y 截距,第二行给出回归系数。 此表的列具有 Estimate、Std 等标签。 误差、t 值和 p 值。

向世界顶尖大学学习机器学习课程获得硕士、Executive PGP 或高级证书课程以加快您的职业生涯。

  • 将(截距)值代入回归方程,以预测整个 GDP 数字范围内的销售额。
  • 调查(估计)列以了解效果。 回归系数将告诉您销售额随 GDP 的变化而变化。
  • 从(标准误差)标签中找出您对销售额与 GDP 之间关系的估计值的变化。
  • 查看 (t-value) 下的检验统计量,以了解结果是否偶然发生。 t 值越大,可能性越小。
  • 如果原假设为真,通过 Pr(>|t|) 列或 p 值查看 GDP 对销售额的估计影响。
  • 用估计的效果、标准误差和 p 值呈现您的结果,清楚地传达回归系数的含义。
  • 在报告中包含图表。 简单的线性回归可以显示为带有回归线和函数的绘图图。
  • 通过测量观察到的和预测的 y 值的距离、在 x 的每个值处对距离进行平方并计算它们的平均值来计算误差。

结论

通过上面的线性回归示例,我们为您提供了生成简单线性回归模型、找到回归系数和计算估计误差的概述。 我们还谈到了 Python 和 R 在预测数据分析和统计方面的相关性。 此类工具的实用知识对于今天从事数据科学和机器学习的职业至关重要。

如果您想磨练自己的编程技能,请查看IIT Madras 和 upGrad的机器学习高级证书课程在线课程还包括案例研究、项目和专家指导课程,以将行业导向带入培训过程。

提升您在机器学习和人工智能方面的职业生涯

申请LJMU机器学习与人工智能理学硕士