机器学习统计:你需要知道的一切

已发表: 2021-03-12

统计和概率是机器学习和数据科学的核心。 机器学习能够实现今天所取得的成就的正是统计分析加上计算能力和优化。 从概率的基础到描述性和推理性统计,这些主题构成了机器学习的基础。

在本教程结束时,您将了解以下内容:

  • 概率基础
  • 概率分布
  • 正态分布
  • 集中趋势测度
  • 中心极限定理
  • 标准偏差和标准误差
  • 偏度和峰度

目录

概率基础

独立和从属事件

让我们考虑两个事件,事件 A 和事件 B。当事件 A 发生的概率不取决于事件 B 的发生时,则 A 和 B 是独立事件。 例如,如果你有 2 个公平的硬币,那么两个硬币正面朝上的概率都是 0.5。 因此事件是独立的。

现在考虑一个包含 5 个球的盒子——2 个黑色和 3 个红色。 先抽到黑球的概率是 2/5。 现在从剩下的 4 个球中再次抽到一个黑球的概率将是 1/4。 在这种情况下,这两个事件是相互依赖的,因为第二次抽到黑球的概率取决于第一次抽到什么球。

边际概率

它是事件的概率,与其他随机变量的结果无关,例如 P(A) 或 P(B)。

联合概率

它是两个不同事件同时发生的概率,即两个(或更多)同时发生的事件,例如 P(A 和 B) 或 P(A, B)。

条件概率

它是一个(或多个)事件的概率,给定另一个事件的发生,或者换句话说,它是当次要事件 B 为真时事件 A 发生的概率。 例如 P(A 给定 B) 或 P(A | B)。

加入来自世界顶级大学的在线ML 课程- 硕士、高管研究生课程和 ML 和 AI 高级证书课程,以加快您的职业生涯。

概率分布

概率分布描述了样本空间中数据点的分布。 当从总体中随机抽样时,它可以帮助我们了解对某些数据点进行抽样的概率。 例如,如果人口由学校学生的分数组成,那么概率分布将在 X 轴上具有分数,在 Y 轴上具有这些分数的学生人数。 这也称为直方图 直方图是一种离散概率分布 离散分布的主要类型有二项分布、泊松分布和均匀分布。

另一方面,对具有连续值的数据进行连续概率分布。 换句话说,当它可以有一组无限的值时,例如高度、速度、温度等。连续概率分布在数据科学和统计分析中具有巨大的用途,可用于检查特征重要性、数据分布、统计测试等。

另请阅读机器学习背后的数学

正态分布

最著名的连续分布是正态分布,也称为高斯分布或“钟形曲线”。

考虑人的身高的正态分布。 大多数高度都集中在中间部分,中间部分较高,并逐渐向左右极端降低,这表示随机获得该值的概率较低。

这条曲线以它的平均值为中心,可以是高而细的,也可以是短而分散的。 细长的表示我们可以采样的不同值的数量较少。 并且更分散的曲线表明存在更大范围的值。 这种价差由其标准偏差定义

标准差越大,您的数据就越分散。 标准偏差只是另一个称为方差的属性的数学推导,它定义了数据“变化”的程度。 方差是数据的全部内容,方差是信息。 没有差异,没有信息。 正态分布在统计中起着至关重要的作用——中心极限定理。

集中趋势测度

中心趋势度量是我们可以通过采用单个值来总结数据集的方法。 主要有3种趋势度量:

1.平均值:平均值只是数据/特征中值的算术平均值或平均值。 所有值的总和除以值的数量得出平均值。 平均值通常是衡量任何数据中心的最常用方法,但在某些情况下可能会产生误导。 例如,当存在大量异常值时,均值将开始向异常值移动,并成为衡量数据中心的不良指标。

2. 中位数:中位数是数据按升序或降序排序时恰好位于中心的数据点。 当数据点的数量为奇数时,中位数很容易被选为最中心点。 当数据点数为偶数时,中位数计算为 2 个中心最多的数据点的平均值。

3.众数:众数是数据集中出现频率最高的数据点。 该模式对异常值仍然是最稳健的,因为它仍将固定在最频繁的点。

中心极限定理

统计中的中心极限定理指出,给定足够大的样本量,无论该变量的分布如何,采样分布都将接近正态分布。 让我用简单的话来说明上述陈述的精髓。

数据可能具有任何分布。 它可能是完美的或偏正态的,它可能是指数的或(几乎)您可能想到的任何分布。 但是,如果您反复从总体中抽取样本并不断绘制其均值的直方图,您最终会发现所有均值的这种新分布类似于正态分布!

从本质上讲,无论您的数据处于何种分布状态,它们的均值分布始终是正常的。

但是需要多少样本才能使 CLT 为真呢? 拇指规则说它应该> 30。 因此,如果您从任何分布中抽取 30 个或更多样本,则无论基础分布类型如何,均值将呈正态分布。

标准偏差和标准误差

标准偏差和标准误差经常相互混淆。 您可能知道,标准偏差描述或量化了分布两侧数据的变化——低于平均值和高于平均值。 如果您的数据点分布在大范围的值中,则标准偏差会很高。

现在,正如我们上面所讨论的,根据中心极限定理,如果我们绘制总体中所有样本的均值,这些均值的分布将再次成为正态分布。 所以它会有自己的标准偏差,对吧?

总体中所有样本的平均值的标准差称为标准误差。 当您计算均值的标准差时,标准误差的值通常会小于标准差,并且由于聚合,均值的值将小于单个数据点的分布。

您甚至可以计算中位数的标准差、众数甚至标准差的标准差!

在你走之前

统计概念构成了数据科学和机器学习的真正核心。 为了能够做出有效的推论并有效地理解手头的数据,您需要对本教程中讨论的统计和概率概念有深刻的理解。

upGrad 提供机器学习和人工智能的执行 PG 计划和机器学习和人工智能理学硕士,可以指导您建立职业生涯。 这些课程将解释机器学习的必要性以及收集该领域知识的进一步步骤,涵盖从梯度下降到机器学习的各种概念。

要想在机器学习中取得好成绩,必须具备统计学知识吗?

统计学是一个非常广阔的领域。 在机器学习中,统计学基本上有助于深入理解数据。 一些机器学习算法需要一些统计概念,如概率、数据解释等。 但是,您不必成为所有统计主题的专家才能在机器学习方面做得很好。 通过仅了解基本概念,您将能够有效地执行。

事先了解一些编码对机器学习有帮助吗?

编码是机器学习的核心,懂得如何编码的程序员将对算法的功能有深刻的理解,从而能够更有效地监控和优化这些算法。 您不需要成为任何编程语言的专家,尽管任何先验知识都会是有益的。 如果您是初学者,Python 是一个不错的选择,因为它易于学习并且具有用户友好的语法。

我们如何在日常生活中使用微积分?

天气预报基于许多变量,例如风速、水分含量和温度,这些变量只能使用微积分来计算。 在航空工程中也可以通过多种方式看到微积分的使用。 汽车行业也使用微积分来改善和确保车辆的良好安全性。 它也被信用卡公司用于支付目的。