Python 中的二项式分布与真实世界示例 [2022]

已发表: 2021-01-09

概率统计在数据科学领域的价值是巨大的,人工智能和机器学习对它们的依赖程度很高。 每次进行 A/B 测试和投资建模时,我们都使用正态分布的过程模型。

然而, Python 中的二项分布以多种方式应用以执行多个过程。 但是,在开始使用Python 中的二项分布之前,您需要了解一般的二项分布及其在日常生活中的用途。 如果您是初学者并且有兴趣了解有关数据科学的更多信息,请查看我们来自顶尖大学的数据科学培训。

目录

什么是二项分布

你曾经掷过硬币吗? 如果你有,那么你必须知道正面或反面的概率是相等的。 但是,总共掷十次硬币得到七次反面的可能性如何呢? 这就是二项式分布可以帮助计算每次翻转的结果,从而找出十次掷硬币得到七个反面的概率。

概率分布的症结来自于任何事件的方差。 对于每十次抛硬币,正面和反面的概率可以在 1 到 10 次之间,同样且有可能。 结果的不确定性(也称为方差)有助于生成所产生结果的分布。

换句话说,二项分布是一个只有两种可能结果的过程:真或假。 因此,它在所有事件中具有相同的结果概率,因为每次都执行相同的操作。 只有一个条件……这些步骤需要彼此完全不受影响,结果可能相同也可能不同。

因此,二项分布的概率函数为:

f f( k k , n n, p p) = P r Pr( k k; n n, p p) = P r Pr ( X X= k k) =

资源

在哪里,

= n n! k k !( n n!- k k!)

这里,n = 试验总数

p = 成功概率

k = 目标成功次数

Python中的二项分布

对于通过 Python 进行的二项分布,您可以从 binom.rvs () 函数生成不同的随机变量,其中“n”定义为试验的总频率,“p”等于成功概率。

您还可以使用 loc 函数移动分布,并且大小定义了在系列中重复的动作的频率。 添加 random_state 有助于保持可重复性。

资源

Python中二项分布的真实示例

有更多的事件(比抛硬币大)可以通过 Python 中的二项分布来解决。 一些用例可以帮助跟踪和提高大小公司的 ROI(投资回报率)。 这是如何做:

  • 想想一个呼叫中心,每个员工平均每天接到 50 个电话。
  • 每次调用的转换概率等于 4%。
  • 基于每次此类转换,公司的平均收入为 20 美元。
  • 如果你分析 100 名这样的员工,他们每天获得 200 美元的报酬,那么

n = 50

p = 4%

该代码可以生成如下输出:

  • 每个员工的平均转化率 = 2.13
  • 每个呼叫中​​心人员的转换标准差 = 1.48
  • 总转化率 = 213
  • 总收入 = 21,300 美元
  • 总费用 = 20,000 美元
  • 毛利润 = 1,300 美元

二项分布模型和其他概率分布只能预测在动作参数“n”和“p”方面可以接近现实世界的近似值。 它有助于我们了解和确定我们的重点领域,并提高获得更好绩效和效率的总体机会。

另请阅读:初学者的 13 个有趣的数据结构项目想法和主题

接下来是什么?

如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划,该计划是为在职专业人士创建的,提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一,400 多个小时的学习和顶级公司的工作协助。

离散概率分布和连续概率分布有什么区别?

离散概率分布或简单的离散分布计算可以是离散的随机变量的概率。 例如,如果我们掷硬币两次,表示正面总数量的随机变量 X 的可能值将是 {0,1,2},而不是任何随机值。 伯努利、二项式、超几何是离散概率分布的一些例子。 另一方面,连续概率分布提供了可以是任何随机数的随机值的概率。 例如,表示城市公民身高的随机变量 X 的值可以是任何数字,如 161.2、150.9 等。正态、学生 T、卡方是连续分布的一些示例。

概率在数据科学中的意义是什么?

由于数据科学就是研究数据,概率在这里起着关键作用。 以下原因描述了概率如何成为数据科学不可或缺的一部分:它帮助分析师和研究人员根据数据集做出预测。 这些估计结果是进一步分析数据的基础。 在开发机器学习模型中使用的算法时,也会使用概率。 它有助于分析用于训练模型的数据集。 它允许您量化数据并得出结果,例如导数、均值和分布。 使用概率获得的所有结果最终都会汇总数据。 此摘要还有助于识别数据集中现有的异常值。

解释超几何分布。 在什么情况下倾向于二项分布?

在没有任何替代的试验次数上取得成功。 假设我们有一个装满红球和绿球的袋子,我们必须找出在 5 次尝试中捡到一个绿球的概率,但是每次我们捡到一个球,我们都不会把它放回袋子里。 这是超几何分布的一个恰当例子。
对于较大的N,超几何分布的计算非常困难,但是当N较小时,在这种情况下趋于二项分布。