如何进行多元回归分析?
已发表: 2021-11-23在统计分析中,回归模型主要用于在必要时开发所考虑变量之间的关系。 通过在所有变量之间拟合一条线来建立关系。 为了理解因变量的行为,使用回归模型。 它们让用户知道因变量如何随着自变量的变化而变化。
多元线性回归是一种这样的技术,可以帮助我们估计这些变量之间的关系,即因变量和自变量。 本文将重点介绍多元线性回归的技术及其实现方式。
目录
多元线性回归
多元线性回归是一种统计技术,用于预测任何响应变量的结果。 该技术的目标之一是在自变量和因变量之间建立线性关系。 多元线性回归分析是多变量分析的一种形式,涉及不止一种观察形式。
如果您想了解以下内容,大多数情况下可以执行该技术:
- 了解变量之间的关系有多强。 此外,如果您想了解自变量和因变量之间的关系,那么在这些情况下,我们可以使用多元线性回归技术。
- 该技术可用于预测与自变量相对应的因变量的值。
多元线性回归中考虑的假设
在多元线性回归技术中考虑了某些假设。 以下是 MLR 的一些列出的假设:
1. 方差齐性
它也被称为同方差性。 这意味着在预测结果时,与通过自变量值预测结果相关的误差没有显着变化。 该方法假设误差量在整个 MLR 模型中是相同的。 分析师必须根据预测值绘制标准化的残差。 这有助于确定自变量之间的点是否公平分布。 散点图可用于绘制数据。
2. 观察的独立性
多元线性回归中考虑的观察结果是通过有效的统计技术收集的。 这意味着收集的变量之间没有隐藏或现有的关系。 有时,在这种技术中,存在一些变量与其他变量相关的情况。 因此,在开发回归模型之前,检查这些相关变量始终很重要。 对于显示出高相关性的变量,从模型开发中删除其中一个变量总是更好。
3、自变量之间不存在相关性
换句话说,可以提到数据中不应该存在任何多重共线性。 如果存在任何多重共线性,分析人员会发现很难识别对因变量方差有贡献的变量。 因此,被认为是检验假设的最佳方法之一是变异膨胀因子的方法。
4. 常态:
这意味着数据集遵循正态分布。
5. 线性
在搜索变量之间的关系时,尝试在变量之间拟合一条直线。 人们普遍认为自变量和因变量之间存在线性关系。 检查线性关系的一种方法是创建散点图,然后可视化散点图。 它使用户能够观察观察中存在的线性。 如果万一没有线性关系,那么分析师必须重复他的分析。 诸如 SPSS 之类的统计软件可用于执行 MLR。
多元线性回归的数学表示
多元线性回归模型的数学图如下所示:
在上述等式中,
- Y代表输出变量,
- X 代表输入变量,
- Β 表示与每一项相关的系数。
- B0 是 y-intercept 的值,这意味着当所有其他预测变量都不存在时 Y 的值。
有时,MLR 的方程由一个误差项组成,该误差项在方程项的末尾用“e”表示。
在找到线的最佳拟合时, MLR 方程用于计算以下内容:
- 计算导致 MLR 方程出现最小误差的回归系数。
- 对于整体模型,方程计算 t 统计值。
- 模型的 P 值。
普通最小二乘
多元线性回归的方法也称为普通最小二乘法 (OLS)。 这是因为 MLR 的方法试图找到最小平方和。 因此,也称为 OLS 方法。 编程语言 python 可用于实现这些方法。 在python中可以应用OLS方法的两种方法是:
1. SciKit 学习
这是一个可用的 Python 编程语言包。 线性回归模块将从 Scikit Learn 的包中导入。 然后用数据拟合模型。 这是一种简单的方法,可以广泛使用。
2. 统计模型
python 编程语言中使用的其他方法之一是 Statsmodels 包。 这个包可以帮助实现 OLS 技术。
多元线性回归示例
下面列出了 MLR 的一些示例:
- 多元线性回归模型可用于预测作物产量。 这是因为,在 MLR 中,因变量和自变量之间存在关联。 在此类研究中,可以考虑其他因素,例如气候因素、降雨量、肥料水平和温度。
- 如果必须在所进行研究的小时数和班级 GPA 之间建立联系,则可以使用 MLR 方法。 在这种情况下,GPA 将是因变量,而其他变量,例如学习时间,将是解释变量。
- MLR技术可用于根据高管的经验和年龄确定公司高管的薪水。 在这种情况下,工资将成为因变量,而年龄和经验将成为自变量。
MLR 的工作流程
在进入回归模型之前,需要准备和分析数据。 主要分析数据是否存在任何错误、异常值、缺失值等。这里列出了几个步骤,向您展示如何实施或应用多元线性回归技术。
1. 选择变量
MLR 需要一个数据集,其中包含与响应变量关系最密切的预测变量值。 这意味着应该从最少数量的变量中提取最大信息。 变量的选择可以从以下过程中进行。
- 可以选择自动程序来搜索变量。 工具可以与 R 和 Python 的编程包一起使用,以确定 MLR 研究的最佳变量。
- 可以选择全可能回归来检查任何自变量的任何子部分的存在。
- 可以考虑 R2 的值来分析最佳变量。 那些具有较大 R2 值的变量被认为是模型中的最佳拟合。 R2 的值可以是 0 和 1 这两个数字。值 0 表示没有一个自变量可以预测因变量的结果。 值 1 表示通过自变量进行的预测且没有错误。
- 还有另一个术语是预测平方和(PRESSp)。 如果 MLR 的模型具有较小的 PRESSp,则认为该模型具有更好的预测强度。
2.模型细化
MLR的模型可以通过检查以下标准来改进:
- 全局 F 检验的值。 这用于测试通过自变量预测因变量结果的重要性。
- 调整后的 R2 用于检查参数和样本大小调整后的完整样本的变化。 该项的值越大表明变量与数据的拟合效果越好。
- 均方根偏差或 RMSE 用于估计随机误差的标准偏差。
- 如果变异系数的值小于或等于 10%,则认为 MLR 模型给出了准确的预测。
3. 测试模型假设
所考虑的假设在线性回归模型中进行了测试。 应该满足这些假设。
4. 解决与模型相关的问题
如果违反了模型中考虑的某些假设,则应采取措施尽量减少此类问题。
5. 模型验证
这是 MLR 模型生成的最后一步,被认为是重要的一步。 模型生成后,需要对模型进行验证。 一旦经过验证,它就可以用于任何多元线性回归分析。
结论
多元线性回归是任何研究中用于建立变量之间相关性的最广泛使用的技术之一。 它也被认为是机器学习领域的重要算法。 但是,如果您不熟悉回归分析,最好了解回归模型和简单的线性回归。
从世界顶级大学获取机器学习课程。 获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。