概率质量函数：离散分布和属性

已发表: 2021-02-08

介绍

概率一直是数据科学领域的一个重要方面。它在数据分析师和数据科学家的生活中发挥了关键作用。概率论中使用的概念对于数据科学领域的人们来说是必须知道的。用于进行某些预测的统计方法基于概率和统计理论，因此使概率成为数据科学领域的重要组成部分。

概率给出了在某些假设下某个事件发生的信息，即它表示事件发生的可能性。为了表示随机变量可以取的不同可能值，我们使用概率分布。

随机变量可以称为在给定情况下可能出现的不同结果。为了说明，如果掷骰子，那么这种情况的可能结果是从 1 到 6 的值，这些值成为随机变量的值。

概率分布可以有两种类型： – 离散和连续。离散分布适用于在一个范围内仅取有限数量值的变量。连续分布适用于可以在一个范围内取无限个值的变量。在本文中，我们将更多地探索离散分布，然后再探索概率质量函数。

离散分布

离散分布表示离散随机变量的不同结果的概率。简单来说，它使我们能够理解随机变量中不同结果的模式。它只不过是一个随机变量的所有概率的表示。

要为随机变量创建概率分布，我们需要获得随机变量的结果及其相关概率，然后我们可以计算其概率分布函数。

一些类型的离散分布如下所列： –

二项分布： – 单个试验中的结果数量只能是两个（是或否，成功或失败等）。示例： – 抛硬币
伯努利分布： - 二项分布的特殊版本，其中实验中进行的试验次数始终等于 1。
泊松分布： – 它提供事件在特定时间段内发生一定次数的概率。示例： – 电影将在星期六晚上播放的次数。
均匀分布： - 此分布假设随机变量中所有结果的概率相同。示例： – 掷骰子（因为所有面出现的概率均等）。

您可以参考此链接以获取有关连续和离散分布类型的更多详细信息。为了计算一个随机变量的概率，其值等于该范围内的某个值，使用概率质量函数 (PMF)。对于每个分布，概率质量函数的公式都会相应变化。

为了更清楚地了解概率质量函数，让我们看一个例子。假设如果我们有一些相关数据，我们必须弄清楚板球中哪个击球位置更有可能在一个团队中得分一个世纪。现在由于球队中只能有 11 个比赛位置，随机变量将取 1 到 11 之间的值。

概率质量函数，也称为离散密度函数，可以让我们找出每个位置得分一个世纪的概率，即 P(X=1)、P(X=2)….P(X=11)。在计算完所有概率之后，我们可以计算该随机变量的概率分布。

概率质量函数的一般公式如下：-

P X (x k ) = P(X = x k ) 对于 k = 1,2,…k

在哪里，

X = 离散随机变量。

x k = 随机变量的可能值。

P = 随机变量等于 x k时的概率。

许多人陷入了概率质量函数 (PMF) 和概率密度函数 (PDF) 之间的混淆。为了澄清这一点，概率质量函数适用于离散随机变量，即可以在一个范围内取有限数量值的变量。

概率密度函数用于连续随机变量。即可以在一个范围内取无限个值的变量。概率质量函数有助于计算一般统计数据，例如离散分布的均值和方差。

获得世界顶尖大学的数据科学认证。 加入我们的行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

概率质量函数的性质

随机变量所有可能值的概率总和应为 1。 [ ∑P X (x k ) = 1]
所有概率必须是 0 或大于 0。 [P(x k ) ≥ 0]
每个事件发生的概率范围从 0 到 1。[1 ≥ P(x k ) ≥ 0]

结论

概率质量函数等概率概念在数据科学领域非常有用。这些概念可能不会用于数据科学项目的每个方面，也可能不会用于整个项目。但这并不贬低概率论在这一领域的重要性。

概率论的应用不仅在数据科学领域，而且在行业的其他领域也提供了很好的结果，因为它可以帮助获得有趣的见解和决策，这总是值得一试。

本文概述了概率在数据科学领域的重要性，介绍了概率分布和概率质量函数等概率的基本概念。本文主要关注离散变量项，因为它们使用了概率质量函数。用于连续变量的术语不同，但这些概念的整体意识形态与本文中解释的概念相似。

离散概率分布与连续概率分布有何不同？

离散概率分布或简单的离散分布计算可以是离散的随机变量的概率。例如，如果我们掷硬币两次，表示正面总数量的随机变量 X 的可能值将是 {0,1,2}，而不是任何随机值。
伯努利、二项式、超几何是离散概率分布的一些例子。
另一方面，连续概率分布提供了可以是任何随机数的随机值的概率。例如，表示城市公民身高的随机变量 X 的值可以是任何数字，例如 161.2、150.9 等。
正态、学生 T、卡方是连续分布的一些示例。

解释超几何分布？

超几何分布是一个离散分布，我们在没有任何替换的情况下考虑成功次数超过试验次数。这种类型的分布在我们需要找到某事物的概率而不替换它的情况下很有用。
假设我们有一个装满红球和绿球的袋子，我们必须找出在 5 次尝试中捡到一个绿球的概率，但是每次我们捡到一个球，我们都不会把它放回袋子里。这是超几何分布的一个恰当例子。

概率在数据科学中的重要性是什么？

由于数据科学就是研究数据，概率在这里起着关键作用。以下原因描述了概率如何成为数据科学不可或缺的一部分：
1. 它帮助分析师和研究人员根据数据集做出预测。这些估计结果是进一步分析数据的基础。
2. 在开发机器学习模型中使用的算法时也使用概率。它有助于分析用于训练模型的数据集。
3. 它允许您量化数据并得出结果，例如导数、均值和分布。
4. 所有使用概率获得的结果最终都会汇总数据。此摘要还有助于识别数据集中现有的异常值。