Python 中的二项式分布与真实世界示例 [2022]

已发表: 2021-01-09

概率统计在数据科学领域的价值是巨大的，人工智能和机器学习对它们的依赖程度很高。每次进行 A/B 测试和投资建模时，我们都使用正态分布的过程模型。

然而， Python 中的二项分布以多种方式应用以执行多个过程。但是，在开始使用Python 中的二项分布之前，您需要了解一般的二项分布及其在日常生活中的用途。如果您是初学者并且有兴趣了解有关数据科学的更多信息，请查看我们来自顶尖大学的数据科学培训。

什么是二项分布？

你曾经掷过硬币吗？如果你有，那么你必须知道正面或反面的概率是相等的。但是，总共掷十次硬币得到七次反面的可能性如何呢？这就是二项式分布可以帮助计算每次翻转的结果，从而找出十次掷硬币得到七个反面的概率。

概率分布的症结来自于任何事件的方差。对于每十次抛硬币，正面和反面的概率可以在 1 到 10 次之间，同样且有可能。结果的不确定性（也称为方差）有助于生成所产生结果的分布。

换句话说，二项分布是一个只有两种可能结果的过程：真或假。因此，它在所有事件中具有相同的结果概率，因为每次都执行相同的操作。只有一个条件……这些步骤需要彼此完全不受影响，结果可能相同也可能不同。

因此，二项分布的概率函数为：

f f( k k , n n, p p) = P r Pr( k k; n n, p p) = P r Pr ( X X= k k) =

资源

在哪里，

= n n！ k k !( n n!- k k!)

这里，n = 试验总数

p = 成功概率

k = 目标成功次数

Python中的二项分布

对于通过 Python 进行的二项分布，您可以从 binom.rvs () 函数生成不同的随机变量，其中“n”定义为试验的总频率，“p”等于成功概率。

您还可以使用 loc 函数移动分布，并且大小定义了在系列中重复的动作的频率。添加 random_state 有助于保持可重复性。

资源

Python中二项分布的真实示例

有更多的事件（比抛硬币大）可以通过 Python 中的二项分布来解决。一些用例可以帮助跟踪和提高大小公司的 ROI（投资回报率）。这是如何做：

想想一个呼叫中心，每个员工平均每天接到 50 个电话。
每次调用的转换概率等于 4%。
基于每次此类转换，公司的平均收入为 20 美元。
如果你分析 100 名这样的员工，他们每天获得 200 美元的报酬，那么

n = 50

p = 4%

该代码可以生成如下输出：

每个员工的平均转化率 = 2.13
每个呼叫中心人员的转换标准差 = 1.48
总转化率 = 213
总收入 = 21,300 美元
总费用 = 20,000 美元
毛利润 = 1,300 美元

二项分布模型和其他概率分布只能预测在动作参数“n”和“p”方面可以接近现实世界的近似值。它有助于我们了解和确定我们的重点领域，并提高获得更好绩效和效率的总体机会。

另请阅读：初学者的 13 个有趣的数据结构项目想法和主题

接下来是什么？

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划是为在职专业人士创建的，提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

离散概率分布和连续概率分布有什么区别？

离散概率分布或简单的离散分布计算可以是离散的随机变量的概率。例如，如果我们掷硬币两次，表示正面总数量的随机变量 X 的可能值将是 {0,1,2}，而不是任何随机值。伯努利、二项式、超几何是离散概率分布的一些例子。另一方面，连续概率分布提供了可以是任何随机数的随机值的概率。例如，表示城市公民身高的随机变量 X 的值可以是任何数字，如 161.2、150.9 等。正态、学生 T、卡方是连续分布的一些示例。

概率在数据科学中的意义是什么？

由于数据科学就是研究数据，概率在这里起着关键作用。以下原因描述了概率如何成为数据科学不可或缺的一部分：它帮助分析师和研究人员根据数据集做出预测。这些估计结果是进一步分析数据的基础。在开发机器学习模型中使用的算法时，也会使用概率。它有助于分析用于训练模型的数据集。它允许您量化数据并得出结果，例如导数、均值和分布。使用概率获得的所有结果最终都会汇总数据。此摘要还有助于识别数据集中现有的异常值。

解释超几何分布。在什么情况下倾向于二项分布？

在没有任何替代的试验次数上取得成功。假设我们有一个装满红球和绿球的袋子，我们必须找出在 5 次尝试中捡到一个绿球的概率，但是每次我们捡到一个球，我们都不会把它放回袋子里。这是超几何分布的一个恰当例子。
对于较大的N，超几何分布的计算非常困难，但是当N较小时，在这种情况下趋于二项分布。