什么是描述性统计? 定义,类型解释

已发表: 2021-08-13

描述性统计是数据集的组织和总结特征。 从整个人口或样本中收集的观察结果称为数据集。 收集数据后的第一步是描述特征的响应,例如一个变量的平均值或两个变量之间的关系。 例如,找到年龄和创造力之间的联系给了我们统计分析。

下一步是找到推理统计数据,它表明您的数据是反驳还是证实了假设。 它还有助于我们确定广义人口是否会影响它。 如今,研究人员非常重视数据科学和大数据,对这些数据进行严格审查。 这就是描述性统计发挥作用的地方。

分析描述性统计的基本步骤之一是它提供描述、建设性地显示数据点并提供有洞察力的数据信息。 它进一步为您提供数据分布的结论,帮助您检测异常值,并使您能够识别变量之间的相似性。

目录

描述性统计的类型

  • 频率分布

频率分布显示样本或数据集中不同结果的计数或频率。 它用于定性和定量数据,通常以图形或表格格式呈现。 图形或表格中的每个条目都伴随着值在范围、间隔或特定组中出现的频率或计数。

为了清楚起见,它是基于专有类别分类的分组数据的摘要或表示。 它还显示了每个相应类别中的出现次数。 因此,它表明了一种更有条理和结构化的方式来呈现原始数据。

频率分布数据的一些示例是用于频率表示的图形或图表。 此外,饼图、条形图、折线图和直方图也是频率分布的指标。

  • 集中趋势

集中趋势一般是指描述性的数据集汇总,使用反映数据分布中心的单个值。 因此,集中趋势的度量通常被称为中心位置的度量。 集中趋势的三个核心方面是:

    • 意思是

均值被认为是最流行的集中趋势。 它是数据集的平均值或最常见的值。 要定义均值,它是两个或多个数字的最简单的数学平均值。 平均值由数据中的一组数字给出,可以通过多种方式计算。 平均有两种类型——算术平均和几何平均。

例如,求以下一组数据的均值; 2,3,4,5,6。 然后,通过简单地将数据集相加并将其除以数据集中值的数量,该数据的平均值为 4。

    • 中位数

中位数是任何数据集按升序或降序排列的中间分数。 因此,数字列表在数据集中比平均值更具描述性。

例如奇数数据集为{3, 13, 2, 34, 11, 26,47},首先需要排列数据{2,3,11,13,26,34,47 },这里的中位数是 13,因为系列的两边都有相等的数字。 另一方面,如果偶数数据集是 {3, 13, 2, 34, 11, 17, 27, 47},则需要先将数据按 {2,3,11,13, 17,26,34,47},这里的中位数将是系列中间的两位数之和除以 2。因此,中位数将是 13+17/2,等于 15。

    • 模式

众数是指数据中出现频率最高的分数值。 数据集可能有一种模式,一种以上的模式,甚至根本没有模式。

例如数据集有数字{3,5,6,6,6,8,9},众数为6,如果数据集没有相同的数字,则认为该数据没有众数.

  • 变化性

变异性是反映样本分散程度的汇总统计量的度量。 它还测量确定数据点与中心相距多远的可变性。

散布、分散和可变性是指数据中分布值的宽度和范围。 标准差、方差和范围用于描述价差的不同方面和组成部分。

值集中的范围描述了数据中最低值和最高值之间的离散程度或理想距离。 标准差用于确定一组数据的平均方差。 它还提供了对数据集中值之间的差异或距离的洞察。 它也描述了数据的平均值。 最后,它反映了传播的程度。

描述性统计的重要性

  • 警惕数据

为描述性统计收集的数据必须具有高度的客观性。 因此,需要格外警惕,因为如果统计数据显示所提取数据的不同特征并且它们与趋势不匹配,那将毫无用处。

  • 更广泛的方法

描述性统计被测量为比定量方法更广泛。 它旨在提供更广泛的现象或事件图景。 这可以使用单个数量的变量或任意数量的变量来进行研究。

  • 自然关系

这种统计数据被认为是收集信息的更好方法,因为它是自然的,并且展示了世界的存在。 它研究数据的真实行为,以确保提取趋势的准确性。

  • 灵活的

描述性统计为研究提供了一种学习事物的新方法。 例如,研究人员可以使用相关性和定性的案例研究来描述描述性统计的现象。 人们可以使用案例研究来描述事件、人物和机构。 这将使研究人员能够了解数据模式和行为。

从世界顶级大学在线获得数据科学认证获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。

  • 识别变量和假设

描述性统计数据在确定可以通过实验和推理研究进一步分析的新假设和变量时派上用场。 此外,它非常有用,因为误差幅度相对较小,并且趋势直接来自数据属性。

总结

描述性统计对于数据可视化至关重要,因为它使数据专家能够有意义地展示他们的发现,以便技术和非技术利益相关者都能理解它们。 通过恰当的图形表示来总结复杂的定量数据,描述性统计简化了数据解释过程,使企业更容易做出基于数据的决策。

如果您有兴趣了解有关数据科学中使用的不同统计概念和方法的更多信息,请务必查看upGrad 的数据科学执行 PG 课程 这些课程由来自国内外顶尖大学的教师授课,将为您提供与行业相关的技能和知识。

为未来的职业做准备

从 IIIT 开始您的数据科学职业生涯 - 班加罗尔
申请数据科学高级证书课程