机器学习中的假设是什么? 如何形成假设?

已发表: 2021-03-12

假设检验是一门广泛的学科,适用于许多领域。 当我们研究统计数据时,那里的假设检验涉及来自多个人群的数据,并且测试是查看对人群的影响有多显着。

这涉及计算 p 值并将其与临界值或 alpha 进行比较。 在机器学习方面,假设检验处理的是找到最接近目标的独立特征的函数。 换句话说,将输入映射到输出。

在本教程结束时,您将了解以下内容:

  • 什么是统计与机器学习中的假设
  • 什么是假设空间?
  • 形成假设的过程

目录

统计学假设

假设是对可证伪结果的假设,这意味着可以通过一些证据证明它是错误的。 假设可以被拒绝或无法被拒绝。 我们从不接受统计学中的任何假设,因为这完全是关于概率的,我们永远不会 100% 确定。 在实验开始之前,我们定义了两个假设:

1. Null Hypothesis:表示没有显着影响

2.替代假设:说有一些显着的影响

在统计学中,我们将 P 值(使用不同类型的统计检验计算得出)与临界值或 alpha 进行比较。 P 值越大,可能性越高,这反过来表示效果不显着,我们得出结论,我们无法拒绝原假设

换句话说,这种影响很可能是偶然发生的,没有统计学意义。 另一方面,如果我们得到一个非常小的 P 值,则意味着可能性很小。 这意味着事件偶然发生的概率非常低。

加入来自世界顶级大学的ML 和 AI在线课程 - 硕士、高级管理人员研究生课程和 ML 和 AI 高级证书课程,以快速跟踪您的职业生涯。

显着性水平

在开始实验之前设置显着性水平。 这定义了误差的容忍度以及在哪个级别可以认为影响是显着的。 显着性水平的一个常见值是 95%,这也意味着我们有 5% 的机会被测试愚弄并犯错误。 换句话说,临界值是 0.05,它充当阈值。 同样,如果显着性水平设置为 99%,则意味着临界值为 0.01%。

P值

对总体和样本进行统计检验,找出 P 值,然后将其与临界值进行比较。 如果 P 值小于临界值,那么我们可以得出结论,效果显着,因此拒绝零假设(即没有显着效果)。 如果 P 值大于临界值,我们可以得出结论,没有显着影响,因此无法拒绝零假设。

现在,由于我们永远无法 100% 确定,我们的测试总是有可能是正确的,但结果却具有误导性。 这意味着要么我们拒绝空值,但它实际上并没有错。 这也可能意味着我们不会拒绝实际上为假的空值。 这些是假设检验的类型 1 和类型 2 错误。

例子

假设您正在为一家疫苗制造商工作,而您的团队正在为 Covid-19 开发疫苗。 要证明这种疫苗的功效,需要统计证明它对人类有效。 因此,我们取两组大小和属性相同的人。 我们给 A 组打疫苗,给 B 组打安慰剂。我们进行分析,看看 A 组有多少人被感染,B 组有多少人被感染。

我们对此进行了多次测试,以查看 A 组是否对 Covid-19 产生了任何显着的免疫力。 我们计算所有这些测试的 P 值,并得出结论 P 值总是小于临界值。 因此,我们可以安全地拒绝原假设并得出结论确实存在显着影响。

阅读:机器学习模型解释

机器学习中的假设

在监督机器学习中使用机器学习中的假设,我们需要找到最能将输入映射到输出的函数。 这也可以称为函数逼近,因为我们正在逼近一个目标函数,该目标函数最能将特征映射到目标。

1.假设(h):假设可以是将特征映射到目标的单个模型,但是,可以是结果/度量。 假设由“ h ”表示。

2.假设空间(H):假设空间是可用于对数据进行建模的模型及其可能参数的完整范围。 用“ H ”表示。 换句话说,假设是假设空间的一个子集。

形成假设的过程

本质上,我们有训练数据(独立特征和目标)和一个将特征映射到目标的目标函数。 然后使用不同类型的超参数空间配置在不同类型的算法上运行这些算法,以检查哪种配置产生最佳结果。 训练数据用于制定并从假设空间中找到最佳假设。 测试数据用于验证或验证假设产生的结果。

考虑一个示例,我们有一个包含 10000 个实例的数据集,其中包含 10 个特征和一个目标。 目标是二元的,这意味着它是一个二元分类问题。 现在,比如说,我们使用逻辑回归对这些数据进行建模,并获得 78% 的准确率。 我们可以绘制将两个类分开的回归线。 这是一个假设(h)。 然后我们在测试数据上检验这个假设,得到 74% 的分数。

现在,再次假设我们在相同数据上拟合 RandomForests 模型并获得 85% 的准确度得分。 这已经是对逻辑回归的一个很好的改进。 现在我们决定调整 RandomForests 的超参数,以便在相同数据上获得更好的分数。 我们进行网格搜索并在数据上运行多个 RandomForest 模型并检查它们的性能。 在这一步中,我们实质上是在搜索假设空间(H)以找到更好的函数。 完成网格搜索后,我们得到了 89% 的最佳分数,我们结束了搜索。

现在我们还尝试了更多模型,例如 XGBoost、支持向量机和朴素贝叶斯定理,以测试它们在相同数据上的性能。 然后我们选择性能最好的模型并在测试数据上对其进行测试以验证其性能并获得 87% 的分数。

结帐:机器学习项目和主题

在你走之前

该假设是机器学习和数据科学的一个重要方面。 它存在于所有分析领域,是是否应引入更改的决定因素。 无论是制药、软件、销售等。假设涵盖了完整的训练数据集,以检查假设空间中模型的性能。

假设必须是可证伪的,这意味着如果结果与假设相反,则必须可以测试并证明它是错误的。 当需要验证许多不同的配置时,搜索模型的最佳配置的过程非常耗时。 还有一些方法可以通过使用超参数的随机搜索等技术来加速这个过程。

如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和 AI 执行 PG 计划,该计划专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT -B 校友身份,5 个以上实用的实践顶点项目和顶级公司的工作协助。

我们为什么要做开源项目?

做开源项目的原因有很多。 你正在学习新事物,你正在帮助他人,你正在与他人建立联系,你正在创造声誉等等。 开源很有趣,最终你会有所收获。 最重要的原因之一是它建立了一个伟大的工作组合,你可以向公司展示并被录用。 开源项目是学习新事物的好方法。 您可能正在增强您的软件开发知识,或者您可能正在学习一项新技能。 没有比教更好的学习方法了。

作为初学者,我可以为开源做出贡献吗?

是的。 开源项目不歧视。 开源社区由喜欢编写代码的人组成。 新手总有一个地方。 您将学到很多东西,也有机会参与各种开源项目。 您将了解哪些有效,哪些无效,您还将有机会让大型开发人员社区使用您的代码。 有一个一直在寻找新贡献者的开源项目列表。

GitHub 项目如何运作?

GitHub 为开发人员提供了一种管理项目和相互协作的方式。 它还可以作为开发人员的一种简历,列出项目的贡献者、文档和版本。 对项目的贡献向潜在的雇主表明您具有在团队中工作的技能和动力。 项目通常不仅仅是代码,因此 GitHub 有一种方法可以让您像构建网站一样构建项目。 您可以通过分支机构管理您的网站。 分支就像一个实验或您网站的副本。 当您想尝试新功能或修复某些内容时,您可以创建一个分支并在那里进行实验。 如果实验成功,您可以将分支合并回原网站。