2022 年您必须了解的 6 种监督学习类型

已发表: 2021-01-10

机器学习是人工智能最常见的应用之一。 机器学习从输入的数据中执行任务。 随着经验的积累,它在给定任务中的表现会有所提高。 机器学习包括有监督、无监督和强化学习技术。 阅读有关机器学习类型的更多信息。

在本文中,我们将研究不同类型的监督学习。

目录

什么是监督学习?

在监督学习中,使用“标记”数据训练机器。 当数据集同时包含输入和输出参数时,我们就说它们被标记了。 换句话说,数据已经被标记了正确的答案。

因此,该技术模仿了学生在主管或老师在场的情况下学习的课堂环境。 另一方面,无监督学习算法让模型发现信息并自行学习。

监督机器学习对于解决现实世界的计算问题非常有帮助。 该算法通过从标记的训练数据中学习来预测不可预见数据的结果。 因此,需要高技能的数据科学家来构建和部署此类模型。 随着时间的推移,数据科学家还利用他们的技术专长来重建模型,以保持给出的见解的完整性。

它是如何工作的?

例如,您想训练一台机器预测您在办公室和家之间的通勤时间。 首先,您将创建一个带标签的数据集,例如天气、一天中的时间、选择的路线等,这些数据集将包含您的输入数据。 输出将是您在特定日期回家的估计旅程时间。

一旦你根据相应的因素创建了一个训练集,机器就会看到数据点之间的关系,并用它来确定你开车回家所需的时间。 例如,一个移动应用程序可以告诉您,当有大雨时,您的旅行时间会更长。

机器还可能会在您的标记数据中看到其他联系,例如您下班的时间。 如果您在高峰时段交通上路之前开始,您可以提前回家。 如果您想了解无监督机器学习的工作原理,请阅读更多内容。

现在,让我们尝试借助另一个现实生活中的例子来理解监督学习。 假设你有一个水果篮,你用各种不同的水果训练机器。 训练数据可能包括以下场景:

  • 如果物体呈红色、圆形且顶部有凹陷,则将其标记为“Apple”
  • 如果该物品呈黄绿色并且形状像一个弯曲的圆柱体,则将其标记为“香蕉”

接下来,你给一个新对象(测试数据)并让机器识别它是香蕉还是苹果。 它将从训练数据中学习并应用知识根据输入的颜色和形状对水果进行分类。

不同类型的监督学习

1.回归

在回归中,使用训练数据产生单个输出值。 该值是概率解释,在考虑输入变量之间的相关强度后确定。 例如,回归可以帮助根据位置、大小等预测房屋的价格。

在逻辑回归中,输出具有基于一组自变量的离散值。 在处理非线性和多决策边界时,这种方法可能会陷入困境。 此外,它还不够灵活,无法捕捉数据集中的复杂关系。

2.分类

它涉及将数据分组到类中。 如果您正在考虑向某人提供信贷,您可以使用分类来确定某人是否会拖欠贷款。 当监督学习算法将输入数据标记为两个不同的类时,称为二元分类。 多重分类意味着将数据分类为两个以上的类别。

3.朴素贝叶斯模型

贝叶斯分类模型用于大型有限数据集。 它是一种使用有向无环图分配类标签的方法。 该图包括一个父节点和多个子节点。 并且假设每个子节点都是独立的并且与父节点分开。

决策树

决策树是一个类似于流程图的模型,其中包含条件控制语句,包括决策及其可能的后果。 输出与不可预见数据的标记有关。

在树表示中,叶子节点对应于类标签,内部节点表示属性。 决策树可用于解决具有离散属性和布尔函数的问题。 一些著名的决策树算法是 ID3 和 CART。

4. 随机森林模型

随机森林模型是一种集成方法。 它通过构建大量决策树并输出单个树的分类来进行操作。 假设您想预测哪些本科生将在 GMAT 中表现出色——这是一项为进入研究生管理课程而进行的考试。 考虑到一组以前参加过考试的学生的人口统计和教育因素,随机森林模型将完成这项任务。

5. 神经网络

该算法旨在对原始输入进行聚类、识别模式或解释感官数据。 尽管有多种优势,但神经网络需要大量的计算资源。 当有数千个观察值时,拟合神经网络可能会变得复杂。 它也被称为“黑盒”算法,因为解释其预测背后的逻辑可能具有挑战性。

阅读:2020 年十大神经网络架构

6. 支持向量机

支持向量机 (SVM) 是 1990 年开发的一种监督学习算法。它借鉴了 Vap Nick 开发的统计学习理论。

SVM 分离超平面,使其成为判别分类器。 输出以对新示例进行分类的最优超平面的形式产生。 SVM 与内核框架紧密相连,并用于不同的领域。 一些例子包括生物信息学、模式识别和多媒体信息检索。

监督学习的优缺点

几种类型的监督学习允许您从以前的经验中收集和生成数据。 从优化性能标准到处理现实世界的问题,监督学习已经成为人工智能领域的强大工具。 与无监督学习相比,它也是一种更值得信赖的方法,无监督学习在某些情况下计算复杂且准确性较低。

然而,监督学习并非没有局限性。 训练分类器需要具体的例子,如果没有正确的例子,决策边界可能会被过度训练。 在大数据分类方面也可能遇到困难。

加起来

监督学习的长短在于它使用标记数据来训练机器。 回归技术和分类算法有助于开发高度可靠且具有多种应用的预测模型。

监督学习需要专家来构建、扩展和更新模型。 在缺乏技术熟练程度的情况下,可以应用蛮力来确定输入变量。 这可能会导致不准确的结果。 因此,选择相关数据特征对于监督学习的有效工作至关重要。

人们应该首先决定训练集需要哪些数据,继续构建学习的函数和算法,并收集专家和测量的结果。 这样的最佳实践可以大大支持模型的准确性。

随着人工智能和机器学习在当今以技术为导向的世界中加快步伐,了解监督学习的类型可能是任何领域的显着差异化因素。 上面的解释将帮助您迈出第一步!

如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

从世界顶级大学学习ML 课程获得硕士、Executive PGP 或高级证书课程以加快您的职业生涯。

监督学习的意义是什么?

机器使用监督学习中的“标记”数据进行学习。 当一个数据集同时具有输入和输出参数时,它被认为是有标签的。 换句话说,信息已经被标记为正确的响应。 在现实世界的计算挑战中,监督机器学习非常有用。 该系统从标记的训练数据中学习,以预测意外数据的结果。 因此,构建和部署此类模型需要高技能数据科学家的专业知识。 数据科学家利用他们的技术知识随着时间的推移构建模型,以保持所提供见解的有效性。

分类和回归有什么区别?

使用训练数据,回归产生单个输出值。 这是一种概率解释,通过考虑输入变量之间的相关强度来确定。 例如,回归可以帮助根据房屋的位置、大小和其他因素预测房屋的价格。 对数据进行分类的行为需要将其划分为类别。 如果您正在考虑向他们提供信贷,您可以使用分类来评估一个人是否会拖欠贷款。 当监督学习算法将输入数据分类为两个单独的类时,就会发生二元分类。 多重分类是指将信息分为两组以上。

什么是随机森林?

一种集成方法是随机森林模型。 它的工作原理是创建大量决策树,然后对各个树进行分类。 假设您想知道哪些大学生会在 GMAT 中表现出色,这是进入研究生管理课程所需的考试。 鉴于之前参加过测试的一组学生的人口统计和教育特征,随机森林模型可以完成任务。