什么是监督机器学习? 算法,示例
已发表: 2021-06-22机器学习无处不在——从政府机构、零售服务和金融机构到医疗保健、娱乐和交通行业。 它与我们的日常生活息息相关,无论是 Netflix 或亚马逊提供在线推荐,还是您的智能手机通过面部检测技术解锁,机器学习和人工智能都获得了前所未有的发展势头。
随着机器学习成为现在最流行的技术趋势之一,了解创建人工智能的关键方法之一——监督机器学习变得势在必行。
目录
什么是监督机器学习?
监督机器学习是一种机器学习,其中使用标记的输入数据训练计算机算法,然后计算机预测不可预见数据的输出。 在这里,“标记”意味着一些数据已经被标记了正确的答案,以帮助机器学习。 在监督学习中,输入到计算机的输入数据像主管或老师一样工作,通过检测输入数据和输出标签之间的潜在模式和相关性来训练机器产生准确的结果。
监督学习算法的类型
有不同类型的监督学习算法来实现特定的结果。 让我们来看看一些最常见的类型。
一、分类
分类算法使用标记的训练数据将输入分类到给定数量的类或类别中。 这里,输出变量是一个类别,例如“是”或“否”以及“真”或“假”。 将医疗报告分类为阳性(疾病)或阴性(无疾病),或将电影分类为不同类型是分类算法适用的一些实例。
2.回归
当输入和输出变量之间存在数值关系时,使用回归模型。 属于监督学习范围的回归算法包括线性回归、非线性回归、回归树、多项式回归和贝叶斯线性回归。 此类模型主要用于预测连续变量,例如推测市场趋势、天气预报或预先确定全天特定时间在线广告的点击率。
加入来自世界顶级大学的机器学习在线课程——硕士、高管研究生课程和 ML 和 AI 高级证书课程,以加快您的职业生涯。
3. 神经网络
神经网络算法用于解释感官数据、识别模式或对原始输入进行聚类。 虽然这种算法有几个优点,但当观察值过多时,使用神经网络可能会非常具有挑战性。 神经网络在现实生活中的流行应用包括信息提取、文本分类、语音和字符识别、多文档摘要、语言生成等。
4.朴素贝叶斯模型
朴素贝叶斯分类器不是单一算法,而是基于贝叶斯定理的算法集合。 这些算法的标准原理是每对分类特征相互独立。 使用包含几个子节点和一个父节点的直接无环图来分配类标签。 每个子节点都被认为是独立于父节点的。 朴素贝叶斯算法在现实生活中的流行应用包括垃圾邮件过滤和情感分析。
5. 决策树
决策树是类似于流程图的模型,其中包含用于比较决策及其可能后果的条件控制语句。 决策树需要一个树状图,其中内部节点代表我们选择属性并提出问题的点,叶节点代表类标签或实际输出,边缘代表问题的答案。
6.支持向量机
支持向量机 (SVM) 基于 Vap Nick 给出的统计学习理论,开发于 1990 年。简单来说,支持向量机是一组用于回归、分类和异常值检测的监督学习方法。 它们与内核网络密切相关,在模式识别、生物信息学和多媒体信息检索等不同领域都有应用。
7. 随机森林模型
随机森林模型由一组单独的决策树组成,其中每棵单独的树都给出一个类预测,而得票最多的类是模型的预测。 随机森林模型概念背后的想法是,大量相对不相关的树或在集成中运行的模型将产生比任何单个预测更准确的预测。 这是因为树相互保护免受独立错误的影响。
它是如何工作的?
监督学习涉及使用标记数据集训练模型,以便它们可以了解每种类型的数据。 训练完成后,给模型提供测试数据来识别和预测输出。
让我们看一个简单的例子来进一步阐明这个概念。
假设给你一个由不同种类的蔬菜组成的板条箱。 在有监督的机器学习方法中,您的第一步是让机器以这种方式逐个熟悉所有不同的蔬菜:
- 如果物体像灯泡和紫粉红色,它将被标记为 - 洋葱。
- 如果该物体是多叶的且颜色为绿色,那么它将被标记为 - 菠菜。
一旦你训练了机器,你就给它一个与板条箱分开的蔬菜(比如洋葱)并要求识别它。 现在,由于机器已经从之前的数据中了解了蔬菜,它会根据新物体的形状和颜色对新物体进行分类,并确认结果是洋葱。 通过这种方式,机器从训练数据(装有蔬菜的箱子)中学习或训练,并将知识应用于新的、不可预见的数据(新蔬菜)。
就像我们上面使用的蔬菜示例一样,让我们看另一个监督学习示例来了解它是如何工作的。
假设我们有一个由各种形状组成的数据集,例如三角形、正方形和五边形。 第一步是通过以下方式为每个图形训练模型:
- 如果形状有三个边,那么它将被标记为 - 三角形
- 如果形状有四个相等的边,那么它将被标记为 - Square
- 如果形状有五个边,那么它将被标记为 - 五角形
训练完成后,我们使用测试数据对模型进行测试,模型的工作就是根据训练知识识别形状。 因此,当模型找到新形状时,它会根据边数对其进行分类并给出输出。
优势与挑战
不用说,监督学习在实现机器学习模型方面有几个优势。 下面列出了它的一些好处:
- 监督学习模型可以根据先前的经验准确地预测输出。
- 监督学习有助于利用经验优化性能。
- 监督学习为我们提供了关于对象类别的清晰而精确的概念。
- 最后但并非最不重要的一点是,监督学习算法对于解决各种现实世界问题和在不同领域找到应用至关重要。
毫无疑问,监督学习算法非常有益,尤其是在实时应对挑战方面。 然而,建立一个可持续和高效的监督学习模型也面临着一系列挑战。 那么让我们来看看:
- 训练监督学习模型的整个过程是一个耗时的过程。
- 监督学习模型通常需要一定水平的专业知识和资源才能准确地构建和运行。
- 与无监督学习模型相比,监督学习模型不能自行对数据进行分类或聚类。
- 人为错误潜入数据集的可能性非常高,这可能导致算法训练不正确。
带示例的最佳实践
在开始使用监督机器学习的项目之前,您应该记住哪些最佳实践? 看看下面。
- 确保您清楚将用作训练数据集的数据类型。
- 从标准测量或人类专家那里收集相应的输出。
- 决定学习算法的结构。
值得最后谈谈监督机器学习的一些最好和最流行的现实生活示例。
- 预测分析:使用监督学习模型进行预测分析的一个广泛用例是为各种业务数据点提供有意义且可操作的见解。 因此,企业可以根据给定的输出变量预见某些结果,以证明和支持决策。
- 对象和图像识别:监督学习算法可用于定位和分类图像和视频中的对象——图像分析和各种计算机视觉技术的常见要求。
- 垃圾邮件检测:垃圾邮件检测和过滤技术使用有监督的分类算法来训练数据库,以便它们能够识别新数据中的模式,从而有效地分离垃圾邮件和非垃圾邮件。
- 情感分析:提高品牌参与度的一个好方法是了解客户互动。 监督机器学习可以通过从大型数据集中提取和分类关键信息(例如客户的情绪、意图、偏好等)来提供帮助。
通过 upGrad 学习机器学习
希望在机器学习和人工智能领域大展拳脚? 从 upGrad 的机器学习和人工智能执行 PG 计划开始您的旅程。 这是一门综合性在线认证课程,专为希望学习深度学习、强化学习、NLP 和图形模型等热门技能的专业人士而设计。
以下是您不能错过的一些课程亮点:
- IIIT班加罗尔的课程结业证书。
- 超过 450 小时的学习时间包括现场会议、编码作业、案例研究和项目。
- 全面涵盖 20 种工具、编程语言和库。
- 实时编码课程和配置文件构建研讨会。
结论
Technavio 最新的市场研究报告《最终用户和地理机器学习市场 - 2020-2024 年预测和分析》预测,在 2020-2024 年的预测期内,全球机器学习市场规模将增长 111.6 亿美元。 更重要的是,稳定的同比增长将推动市场的增长动力。
目前的趋势和未来的预测都表明机器学习将继续存在。 监督学习算法是任何主要涉及分类和回归问题的机器学习项目的基础。 尽管存在挑战,但监督学习算法对于根据经验预测结果最有用。