贝叶斯推理初学者指南：完整指南

已发表: 2021-11-26

机器学习应用在研究、社交媒体、广告等方面的广泛适用性一直在增加。然而，这些应用主要处理涉及大量数据的预测。统计数据通常用于对不确定性值的测量进行量化。如果我们有不同的事件，那么三种方法可以确定事件的概率。
这三种方法是：

古典
贝叶斯
频率论者

让我们考虑一个掷骰子的例子，以找出它是否会显示“四”面的概率。它将有助于理解确定概率的三种方法。假设您考虑概率估计的经典方法。在这种情况下，相信总共会有六个结果，并且任何结果发生的概率都是相同的。在这样的假设下，结果为 4 的概率为 1/6。当结果具有同样可能的结果时，经典方法通常效果很好。但是当结果变得更加主观时，就不能使用这种方法了。

如果我们考虑Frequentist方法，则要求有一个假设的事件的无限序列。然后它需要在无限的假设序列中搜索相关频率。考虑上面骰子的例子，如果骰子被掷了无数次，结果，即1/6，我们可以得到结果为4。因此，根据频率论方法的定义，六面骰子中结果为 4 的概率将是 1/6。

现在转向贝叶斯方法，它为您提供了一些优势。根据这种方法的观点，您可以在决策过程中加入个人信念。这意味着它将考虑诸如有关该问题的已知信息之类的事物。这种方法也考虑了不同的人可以有不同的信念这一事实。例如，假设有人提到明天下雨的概率是 90%，对于其他人来说，下雨的概率可能是 60%。因此，贝叶斯方法的方法是主观的。然而，与Frequentist方法相比，结果更直观。

贝叶斯推理

贝叶斯推理主要用于统计推理问题。在这些情况下，总是有一个未知的数量（数据）需要估计。然后，根据数据，估计所需的数量。未知量称为 θ。假设 θ 是一个随机量，并且对 θ 的值有一些初始猜测。这种类型的分布称为先验分布。值的更新通常通过贝叶斯规则完成。因此，该方法被称为贝叶斯方法。

贝叶斯定理

贝叶斯推理的应用取决于对贝叶斯定理的理解。

考虑有两个结果集，例如集 A 和集 B。这些集也称为事件。让我们将事件 A 的概率表示为 P(A)，将事件 B 的概率表示为 P(B)。这些是个别事件的概率。然而，联合概率可以通过术语 P(A, B) 来定义。条件概率可以扩展为：

P(A,B) = P(A|B)P(B),

这意味着当 B 给定时，A 和 B 的条件概率导致两个事件的联合概率。

P(A,B) = P(B|A)P(A)

在上述两个方程中，方程的左边是相同的，所以方程的右边应该是相等的。

P(A|B)P(B) = P(B|A)P(A)

P(A|B) = P(B|A)P(A)/P(B)

这个方程被称为贝叶斯定理。

在数据科学领域，贝叶斯定理可以写成

P(假设|数据) = P(数据|假设) P(假设)/p(数据)

作为证据的分母确保等式左侧的后验分布是有效概率密度。这也称为归一化常数。

贝叶斯定理的方程中有三个分量。

事先的
可能性
后部

事先分配

贝叶斯推理方法的关键因素之一是先验分布。通过这种方式，您可以将个人信念融入决策过程。此外，您可以将基于不同个体的判断纳入研究。这是通过数学表达式完成的。一个未知的参数，由 θ 表示，用于表达一个人的信念。为了表达这些信念，使用了一个分布函数，即先验分布。因此，在运行任何实验之前，都会选择分布。

贝叶斯推理初学者指南

1. 选择先验

通常为参数 θ 定义累积分布。先验概率为零的事件的后验概率为零。而对于那些具有先验概率值的事件，将具有后验概率值作为一。因此，一个好的贝叶斯方法框架不会为那些已经发生的事件定义一些点估计，或者没有关于它发生的信息。有一些技术可以选择先验。一种广泛用于选择先验的技术是通过使用分布函数。使用所有函数的族。这些功能应该是灵活的，并且能够代表个人的信仰。

2. 可能性

让我们将 θ 视为要估计的未知参数。考虑到贝叶斯推理示例，硬币的公平性可以通过 θ 来表示。硬币被无限翻转以检查其公平性。所以，每次翻转时，要么有头，要么有尾。分配给事件的值是 0 和 1。这也称为伯努利试验。所有结果都被认为是独立的。这可以通过定义似然概念的方程来表达。似然度是一个密度函数，它是 θ 的函数。为了最大化似然性，θ 的值应该导致最大似然值。估计方法也称为最大似然估计。

3. 后验分布

贝叶斯定理的结果称为后验分布。它是在考虑新信息后发生的任何事件的更新概率。

4.贝叶斯推理机制

正如我们在上面看到的，贝叶斯推理方法将概率的概念视为某种程度的信念。这些信念与事件可能在此类证据下发生的事实有关。因此，参数theta“θ”被认为是随机变量。

5.贝叶斯推理在金融风险中的应用

有很多算法可以应用贝叶斯推理。一些算法是神经网络、随机森林、回归等。该方法在金融领域也很受欢迎。可用于多家银行的操作风险建模。显示业务损失的银行数据显示了一些丢失的事件。这些丢失事件的频率较低，但严重性较高。因此，在这种情况下，贝叶斯推理被证明是非常有用的。这是因为，在这种方法中，分析也不需要大量数据。

其他统计分析方法，如频率论方法，也较早应用于操作风险建模。但是在估计不确定性参数时存在问题。因此，贝叶斯推理被认为是最有效的方法。这是因为专家意见和数据可用于推导后验分布。在这类任务中，银行内部损失的数据被分解成几个更小的碎片，然后通过专家判断来估计每个碎片的频率。然后将其拟合到概率的分布中。

加入来自世界顶级大学的在线机器学习课程——硕士、高管研究生课程和 ML 和 AI 高级证书课程，以加快您的职业生涯。

结论

在统计和机器学习中，可以应用的两种主要方法是频率论和贝叶斯推理方法。我们在文章中讨论了贝叶斯推理方法，其中概率被计算为主观信念。与数据一起，人们的个人信仰也被纳入估计概率。这些使得该模型在许多估计研究中得到更广泛的接受。因此，贝叶斯推理技术指定了将您的信念应用于数据观察的方法或方式。此外，在具有大量噪声数据的许多类型的应用程序中，可以使用贝叶斯推理技术。因此，贝叶斯规则中的力量可以与一个可以计算的数量相关，该数量可以用来回答任意性质的问题。

提升您在机器学习和人工智能方面的职业生涯

立即申请机器学习和人工智能领域的 EPGP