卡方检验:简介、如何计算、何时使用

已发表: 2022-11-09

在统计学中,卡方检验用于分析来自正态分布变量集合的观察数据。 通常,这涉及对比两组数字信息。 Karl Pearson 首先提出了这种分析和分布分类数据的方法,将其命名为 Pearson 卡方检验。

Pearson 开发的卡方检验用于列联表中,以评估卡方表的一个或多个类别中的预测频率和实际频率之间是否存在显着的统计差异。

在统计学上,统计学家使用卡方检验来确定模型与数据的拟合程度。 卡方统计需要足够大小的随机、互斥、原始、自变量数据样本。

报名参加世界顶尖大学机器学习课程获得硕士、Executive PGP 或高级证书课程以加快您的职业生涯。

目录

卡方检验基本术语

计算卡方检验的标准公式是平方误差或误报的总和除以样本方差。 使用卡方检验时会实施一些术语。 这些术语的定义如下:

p 值

p 值是实现等于或大于当前实验中的卡方的可能性,并且数据仍然支持该假设。 该概率以百分比表示。 它指的是预期变化仅由随机事件引起的可能性。
如果 p 值小于等于 0.05,则接受所考虑的假设。 如果该值大于 0.05,则拒绝该假设。

自由度

估计问题具有一定的自由度,等于自变量的数量。 尽管对这些变量的值没有硬性限制,但如果我们希望我们的数据集与估计的参数一致,它们确实会对其他变量施加限制。

“自由度”的一种定义是数据集中在逻辑上相互独立并因此可能发生变化的最大数量的值。 从数据集中的观察总数中减去 1 得到自由度。

解决自由度概念的一个突出背景是在卡方等统计假设检验的背景下。

理解卡方统计量的重要性和原假设的稳健性在很大程度上依赖于准确计算自由度。

方差

随机数样本的方差是衡量其在均值附近的离散度。 它是通过平方标准偏差的值来计算的。

执行卡方检验的属性

卡方检验具有以下性质:

  • 平均分布等于自由度的数量。
  • 方差应该等于自由度的两倍。
  • 随着自由度的增加,卡方分布曲线开始类似于正态分布曲线,即钟形曲线。

最佳机器学习课程和在线人工智能课程

LJMU 机器学习与人工智能理学硕士 来自 IIITB 的机器学习和人工智能高级研究生课程
IIITB 机器学习和自然语言处理高级证书课程 IIITB 机器学习和深度学习高级证书课程 马里兰大学数据科学与机器学习高级管理研究生课程
要探索我们所有的课程,请访问下面的页面。
机器学习课程

如何进行卡方检验?

使用以下公式计算分布的卡方:

2 = [(观察值 - 预期值 2 / 预期值]

计算卡方统计量的步骤

  1. 计算观察值和期望值。
  2. 从分布表中的观察值中减去每个期望值。
  3. 将您在步骤 2 中获得的每个观察值平方。
  4. 将这些平方值中的每一个除以其对应的期望值。
  5. 将我们在第 4 步中获得的所有值相加,得到一个定义卡方统计量的值。
  6. 计算自由度以检查上述卡方检验的属性满意度。

卡方检验的类型

拟合优度

如果您想了解总体样本代表整体的程度,您可以应用卡方拟合优度检验。 使用这种技术比较样本总体和预测的样本总体。

独立测试

此卡方检验用于确定一个群体的独立性,以确定两个分类变量之间是否存在相关性。 独立检验不同于拟合优度检验,因为它不会将单个观察到的参数与理论总体进行比较。 相反,独立性检验将样本集中的两个值相互比较。

测试同质性

与独立性测试一样,同质性测试遵循相同的格式和程序。 两者之间的关键区别在于,同质性检验检查变量是否在许多人群中具有相同的分布。 相反,独立性检验检查相似人群中两个分类变量之间是否存在联系。

什么时候应该使用卡方检验?

卡方检验确定实际值是否与理论概率一致。 当被分析的数据来自随机样本并且有问题的变量是分类变量时,卡方是最可靠的测试。

需求机器学习技能

人工智能课程 画面课程
自然语言处理课程 深度学习课程

卡方检验在哪里使用?

让我们以营销公司为例。
一家营销公司正在研究消费者地理和品牌选择之间的相关性。 因此,卡方发挥了重要作用,统计数据的价值将告知公司如何调整其跨地域的营销方法以实现收入最大化。
在分析数据时,卡方检验可用于检查分类变量的一致性或独立性,以及所考虑的拟合优度模型。

同样,卡方统计量可能会在医学专业中得到使用。 卡方检验适用于确定药物与对照组相比的疗效。

流行的机器学习和人工智能博客

物联网:历史、现在和未来 机器学习教程:学习机器学习 什么是算法? 简单易行
印度机器人工程师的薪水:所有角色 机器学习工程师的一天:他们在做什么? 什么是物联网(物联网)
排列与组合:排列与组合之间的区别 人工智能和机器学习的 7 大趋势 使用 R 进行机器学习:您需要知道的一切

结论

在本文中,您了解了卡方统计以及如何计算其值。 由于卡方适用于分类变量,因此它经常被研究调查响应数据的学者使用。 这种研究形式在许多领域都很常见,包括社会学、心理学、经济学、政治学和市场营销。

通过 upGrad 获得机器学习和 AI 理学硕士学位

您是否最终希望获得理学硕士学位? upGrad 与 IIIT-B 和利物浦约翰摩尔斯大学合作,为您带来最精心策划的课程。 通过机器学习和人工智能理学硕士,您将学习机器学习和人工智能领域所需的每一项技能,例如自然语言处理、深度学习、强化学习等。

资格标准:

  • 以 50% 完成学士学位
  • IIIT-B完成机器学习和人工智能高级管理人员研究生课程
  • 至少一年工作经验者优先

本课程为您提供什么:

  • 超过 750 小时的课程资料可供学习
  • 专为工作专业人士设计
  • 超过 15 个作业和案例研究
  • 超过 12 个项目,其中 6 个是顶点项目
  • 实时编码课程
  • 型材建设车间
  • 职业训练营
  • 一对一高效指导
  • 一对一的职业指导课程
  • 独家工作机会
  • 个性化的行业会议

p 值与卡方检验有何关系?

p 值是卡方密度曲线下位于检验统计量值右侧的区域。 卡方检验统计量是否足够大以拒绝原假设是卡方显着性检验的最后一步。 p 值用于此目的。

使用卡方检验是否有任何限制或缺点?

所有被研究的个体必须是独一无二的; 否则,结果将毫无意义。 如果给定的受访者可能分为两个不同的组,则不应使用卡方检验。 卡方的另一个限制是它只能用于频率数据。 此外,所有类别中所有预测人员的总和应大于 5。

卡方检验的优势是什么?

它的主要优势之一是可以快速轻松地计算卡方。 使用这种方法也可以使用标称数据。 它也可用于比较多于两组的分类变量的统计显着性。