统计中的功率分析:它是什么以及如何进行?
已发表: 2021-01-08假设检验是任何统计分析的重要方面。 但是,有很多事情需要预先定义,以便我们进行的测试尽可能正确。 这就是权力概念发挥作用的地方,它定义了统计检验的启发式方法。
在本教程结束时,您将了解:
- 统计检验的启发式
- 测试的力量是什么?
- 功率分析需要什么?
- 如何进行功率分析
目录
统计检验的启发式
在进行测试之前需要预设的几个启发式进行正确的统计测试。 设置正确的启发式非常重要,因为一旦开始测试,这些就无法更改。 让我们来看看其中的几个。
1. 显着性水平和置信区间
在开始任何统计测试之前,需要设置一个概率阈值。 这个阈值或显着性水平称为临界值 (alpha)。 概率曲线下超出 alpha 值的完整区域称为临界区域。
alpha 值告诉我们样本数据点(或实验点)必须与原假设(原始平均点)相距多远,然后才能得出结论认为它非常不寻常,足以拒绝原假设。 常用的 alpha 值是 0.05 或 95% 置信区间。
2. P值
为了评估我们得到的测试结果是否具有统计显着性,我们将测试前设置的临界值 (alpha) 与测试的 P 值进行比较。 p 值是获得与我们正在测试的值一样极端甚至更极端的值的概率。
3. 类型 1 和类型 2 错误
统计检验永远不可能 100% 确定。 总是有错误的余地,并被结果误导。 如上所述,如果我们将 alpha 值设置为 0.05,则置信区间为 95%。 因此,您得到的结果有 5% 的可能性是不正确和具有误导性的。 这些不正确的结果就是我们所说的错误。 有两种类型的错误——类型 1 和类型 2。
显着性水平值 0.05 意味着您的统计检验将正确率为 95%。 这也意味着它有 5% 的可能性是不正确的! 这将是您在原假设正确时拒绝原假设的情况。 这是 1 类错误的示例。 我们也可以说 alpha( α ) 是犯第 1 类错误的概率。
当您断定原假设为真或在它为假时接受它时,也可能出现这种情况。 从技术上讲,我们永远不能接受零假设。 我们只能拒绝它。 这就是我们所说的类型 2 错误。 同样,您犯第 2 类错误的概率由 Beta - β给出。
阅读:数据分析师:掌握的顶级技能和工具
统计检验的功效是什么?
检验的功效是当零假设为假时正确拒绝它的概率。 或者换句话说,功率与犯第 2 类错误的概率成反比。 因此,功率 = 1- β。 例如,如果我们将功效设置为 80%,那么我们的意思是 80% 的统计测试是正确的,而不是虚假的。 因此,功率值越高,犯第 2 类错误的概率就越小。
但为什么结果会是假的呢? 这是因为我们在这里处理的是随机样本。 有时所取的样本与分布的平均值相差太远,因此会给出不切实际的结果,迫使我们做出错误的决定。 功效分析的全部目的是防止我们做出这些错误的决定。
我们是 P-Hacking 吗?
让我们举一个例子,我们已经为 COVID-19 制造了疫苗,我们非常确信该疫苗会产生显着的效果。 我们继续进行统计测试,看看我们的信念在统计上是否也成立。 因此将 alpha 设置为 0.05 并使用 100 个样本进行测试。

测试后,我们得到一个 P 值为 0.06。 我们看到它非常接近我们的 alpha 但不小于它,因此我们可以安全地拒绝原假设。 如果我们增加样本并重做测试,我们很想看看会发生什么。
所以我们再添加 50 个样本,看到 P 值现在为 0.045。 我们是否只是证明了我们的疫苗具有统计学意义? 不! 在获得第一个结果后,我们增加了样本数量,因此我们只是进行了 P-hack。 详细了解什么是 P-Hacking 以及如何避免它?
什么是功率分析?
正如我们在上面的例子中看到的,我们发现样本量很小,后来我们增加了它。 这是错误的,永远不应该这样做。 样本量值应在开始测试之前预设。 但是样本量的什么值适合我们呢?
让我们考虑一个示例,其中我们使用样本大小仅为 1 进行多次测试。因此,当我们从总体中随机抽取 1 个数据点时,它可以在正确代表我们数据的平均值附近,也可以很多远离均值,不能很好地代表数据。
当我们使用这些遥远的数据点进行统计测试时,就会出现问题。 我们将得到的 P 值将是不正确的。 我们现在进行另一系列测试,以 2 作为样本量。 现在,即使一个值远离数据平均值,分布另一侧的另一个值也会将它们的平均值拉到中心,从而减少该远离值的影响。 因此,样本大小为 2 时,如果 P 值正确,我们的结果将更加真实。
功效分析是一种用于找出尽可能好地进行测试所需的样本量的技术。 我们需要的更高的功率是需要的样本量。 所以你可能会想,为什么不直接采用大样本量,因为大样本量意味着更好、更可靠的结果。 这是不对的,因为收集数据的成本很高,而且了解所需的样本量是必不可少的。
如何进行功率分析?
测试的力量取决于一些因素。 执行功效分析的第一步是设置功效值。 假设您设置了 0.8 的共同功效,这意味着您希望至少有 80% 的机会正确拒绝原假设。 如果我们要验证 COVID-19 疫苗对一组人的影响,我们想证明接种疫苗的人的数据点分布与接受安慰剂的人的数据点分布不同。
1. 重叠量
我们需要考虑我们正在比较的两个分布之间的重叠量。 重叠越多,我们就越难以安全地拒绝空值,因此我们需要更多的样本量。 但是,如果重叠非常少,那么我们可以很容易地安全地拒绝 null。 而且我们需要的样本量要少得多。 重叠取决于两个分布的均值及其标准差之间的距离。
2.效果大小
效应量是一种组合总体均值和标准差之间差异的影响的方法。 效应大小 (d) 计算为均值之间的估计差异除以合并的估计标准偏差。 计算合并估计标准偏差的最简单方法之一是标准偏差的平方和除以 2 的平方根。
因此,一旦我们有了 Power 值、alpha 值和效果大小,我们就可以将这些值插入到 Statistics Power Calculator 并获得样本大小值。 这种统计功率计算器很容易在互联网上获得。
获得世界顶尖大学的数据科学认证。 学习行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。
在你走之前
我们通过使用功效、阿尔法和效应大小进行功效分析来计算样本量。 因此,如果我们的样本量值为 7,则意味着我们需要 7 的样本量才能有 80% 的机会正确拒绝零假设。 拥有适量的领域专业知识对于估计总体均值及其重叠以及所需的功率也至关重要。
如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学 PG 文凭,该文凭专为在职专业人士而设,提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、1-与行业导师面对面交流,400 多个小时的学习和顶级公司的工作协助。
什么是功率分析?
检验或功效分析的功效是当零假设为假时正确拒绝它的概率。 或者换句话说,功率与犯第 2 类错误的概率成反比。 因此,功率 = 1-β。 例如,如果我们将功效设置为 80%,那么我们的意思是 80% 的统计测试是正确的,而不是虚假的。 因此,功率值越高,犯第 2 类错误的概率就越小。 功效分析是关于防止错误决策,因为我们正在处理各种随机样本,并且它们的平均值很可能会给出不切实际的平均值并导致我们做出错误的决策。
进行功率分析时会考虑哪些因素?
有一些因素会影响功效分析的检验。 第一步是设置功率值。 假设我们的幂值为 0.7,这意味着您有 70% 的机会拒绝原假设。 下面是Power分析的影响因素。 重叠量是被比较的两个分布之间的重叠。 重叠应该尽可能小,因为重叠量与计算空值的难度成正比。 效应量是一种计算总体平均值和标准差之间差异的方法。 它用“d”表示,计算为均值之间的估计差除以合并估计标准差。 由于现在我们有了功效值、alpha 值(重叠量)和效果大小,我们可以轻松地进行功效分析。
什么是 P-Hacking?
P-Hacking 或数据挖掘是一种滥用数据分析技术来查找数据中看似重要但实际上并不重要的模式的方法。 这种方法对研究产生了负面影响,因为它提供了提供重要数据模式的虚假承诺,这反过来又会导致误报数量急剧增加。 P-hacking 无法完全防止,但有一些方法可以肯定地减少它并帮助避免陷阱。