学习数据挖掘中的贝叶斯分类 [2022]

已发表: 2021-03-10

如果您已经研究数据挖掘一段时间,那么您一定听说过“贝叶斯分类”这个术语。 您想知道它的含义以及它作为数据挖掘概念的重要性吗?

本文将回答这些问题,因为您将探索数据挖掘中的贝叶斯分类是什么。 让我们开始:

目录

什么是贝叶斯分类?

在数据挖掘过程中,您会发现类变量和属性集之间的联系是不确定的。 这意味着即使属性集与训练示例相同,我们也不能绝对确定测试记录的类别标签。

由于存在特定的影响因素或嘈杂的数据,可能会发生这种情况。 假设您想根据一个人的饮食习惯来预测一个人是否有患心脏病的风险。 虽然一个人的饮食习惯是决定他们是否会患心脏病的重要因素,但也可能有其他原因导致同样的情况发生,例如遗传或感染。

因此,您仅根据饮食习惯来确定该人是否有患心脏病风险的分析是有缺陷的,并可能导致出现多个问题。

那么问题来了,“你如何解决数据挖掘中的这个问题?” 答案是贝叶斯分类。

您可以在数据挖掘中使用贝叶斯分类来解决此问题并预测任何事件的发生。 贝叶斯分类器由使用贝叶斯概率理解的统计分类器组成。

要了解贝叶斯分类在数据挖掘中的工作原理,您必须从贝叶斯定理开始。

贝叶斯定理

贝叶斯定理的功劳归功于托马斯贝叶斯,他使用条件概率创建了一种算法,该算法利用证据来计算未知参数的限制。 他是第一个提出这个解决方案的人。

在数学上,贝叶斯定理是这样的:

P(A/B) = P(B/A)P(A) P(B)

这里,A 和 B 代表事件,P(B) 不能等于 0。

前锋(乙) 0

P(B/A) 是一个条件概率,用于解释当 A 为真时事件 B 的发生。 类似地,P(A/B) 是一个条件概率,它解释了当 B 为真时事件 A 的发生。

P(B) 和 P(A) 是独立观察 B 和 A 的概率,称为边际概率。

贝叶斯解释

在贝叶斯解释中,概率计算了一个可信度。 根据贝叶斯定理,在考虑证据之前对假设的相信程度与在考虑相同假设之后对假设的相信程度相关。

假设你有一枚硬币。 如果你掷硬币一次,你会得到正面或反面,它们发生的概率都是 50%。 但是,如果您多次抛硬币并观察结果,相信程度可能会根据结果增加、减少或保持稳定。

如果你有命题 A 和证据 B,那么:

P(A) 是 A 的主要信念度。P(A/B) 是考虑 B 后的后验信念度。商 P(B/A)/P(B) 表示 B 为 A 提供的支持.

您可以从条件概率推导出贝叶斯定理:

P(A/B) = P(A B) P(B) ,如果 P(B) 0

P(B/A) = P(B A) P(A) ,如果 P(A) 0

这里P(A B)是 A 和 B 都为真的联合概率,因为:

P (B A) = P(A B)

或,P(A B) = P( A B )P(B) = P( B A )P(A)

或, P( A B ) = P( B A )P(A) P(B) , 如果 P(B) 0

贝叶斯网络

我们使用贝叶斯网络(也称为信念网络)通过 DAG(有向无环图)来显示不确定性。 有向无环图像任何其他统计图一样显示贝叶斯网络。 它包含一组节点和链接,其中链接表示各个节点之间的连接。

有向无环图中的每个节点都代表一个随机变量。 变量可以是连续值或离散值,并且可以对应于赋予数据的实际属性。

贝叶斯网络可以在变量子集之间定义类条件独立性。 它为您提供了执行实现的关系的图形模型。

除了 DAG,贝叶斯网络还有一组条件概率表。

结论

到目前为止,您必须熟悉数据挖掘中贝叶斯分类的基础知识。 了解数据挖掘实现应用背后的定理对于取得进展至关重要。

您如何看待数据挖掘中的贝叶斯分类? 您是否尝试过实施它? 在评论中分享你的答案。 我们很乐意听取您的意见。

如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学 PG 文凭,该文凭专为在职专业人士而设,提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、1-与行业导师面对面交流,400 多个小时的学习和顶级公司的工作协助。

什么是机器学习中的分类和回归?

分类和回归是机器学习中使用的监督学习算法。 但是这些算法之间存在特定的明显差异。 机器学习中的回归算法用于根据特定输入变量估计变量的连续值。 该算法用于计算连续变量,如身高、收入、体重、分数、天气等。也就是说,它只能用于计算整数格式的离散值。 采用分类算法来计算离散变量的值。 有趣的是,分类技术可以处理离散变量和实值变量,但它们必须分类为不同的分类或标记类别。

数据挖掘和机器学习是一样的吗?

数据挖掘有什么好处?

在这个以数据为中心的世界中,数据挖掘有效地提供了解决与数据或信息相关的问题的方法。 它可以帮助企业收集有用且可靠的信息。 因此,公司可以基于他们的决策或修改最终带来更多利润的运营。 数据挖掘在帮助公司做出明智的决策、检测和降低风险以及最大限度地减少欺诈事件方面发挥着至关重要的作用。 数据科学家可以使用经济高效的数据挖掘技术快速搜索大量日常数据。