ML 中的强化学习:它是如何工作的、学习模型和类型
已发表: 2021-06-11目录
什么是强化学习?
强化学习是指通过合适的机器学习模型做出合适决策的过程。 它基于训练机器学习方法的过程。 它是一种基于反馈的机器学习技术,通过观察他的错误并执行动作,代理可以学习在环境中的行为。
强化学习应用通过交互和反馈进行学习的方法。 强化学习中使用的一些术语是:
- 代理:学习者或决策者执行动作以获得奖励。
- 环境:这是代理学习和执行未来任务的场景。
- 操作:代理执行的操作。
- 状态:现状
- 策略:代理的决策功能,代理根据当前状态决定未来的行动。
- 奖励:环境提供给执行每个动作的代理的回报。
- 价值:与奖励相比,它是带有折扣的预期长期回报。
- 价值函数:表示一个状态的价值,即回报总额。
- 函数逼近器:从训练示例中归纳出一个函数。
环境模型:它是一个模拟真实环境来预测推理的模型。 - 基于模型的方法:用于求解基于强化的模型。
- Q 值或动作值:类似于值,但附加参数被视为当前动作。
- 马尔可夫决策过程:顺序决策问题的概率模型。
- 动态规划:解决顺序决策问题的方法类。
强化学习主要关注软件代理应如何在环境中采取行动的事实。 基于神经网络的学习可以实现复杂的目标。
强化学习如何工作?
下面显示了一个强化学习示例,展示了强化学习的工作原理。
- 猫不懂任何形式的语言,因此必须遵循不同的策略与猫交流。
- 创造了一种猫以各种方式行动的情况。 如果它是所需的方式,猫会得到鱼奖励。 因此,猫在面对这种情况时会以同样的方式表现,期待更多的食物作为奖励。
- 该情景定义了从积极经验中学习的过程。
- 最后,猫还通过负面经历学会了不该做什么。
这导致以下解释
- 猫在暴露于环境时充当代理。 在上面提到的例子中,房子就是环境。 状态可能就像猫坐着或走路一样。
- 代理通过从一种状态转换到另一种状态来执行动作,例如从坐姿移动到行走姿势。
- 动作是代理的反应。 该策略包括在特定状态下选择操作同时期望在未来状态下获得更好结果的方法。
- 状态的转换可能会提供奖励或惩罚。
强化学习需要注意的几点
- 应提供模型将从其开始的初始输入状态。
- 许多可能的输出是通过对特定问题的不同解决方案产生的。
- RL 方法的训练基于输入。 产生输出后,模型将决定是否奖励模型。 因此,模型不断得到训练。
- 该模型不断地学习。
- 问题的最佳解决方案取决于它获得的最大奖励。
强化学习算法
有三种方法可以实现强化学习方法。
1. 基于价值
基于价值的方法涉及最大化价值函数 V(s)。 在一项政策下,对当前状态的长期回归的预期是预期的。 SARSA 和 Q Learning 是一些基于价值的算法。 基于价值的方法非常稳定,因为它不能模拟一个连续的环境。 这两种算法都易于实现,但它们无法估计未见状态的值。
2. 基于政策
这种类型的方法涉及开发一种策略,该策略有助于通过执行每个操作来返回最大奖励。
有两种基于策略的方法:
- 确定性:这意味着在任何状态下,策略都会产生相同的动作。
- 随机:每个动作的概率存在由等式定义
n{a\s) = P\A, = a\S, =S]
基于策略的算法是蒙特卡洛策略梯度(REINFORCE)和确定性策略梯度(DPG)。 基于策略的学习方法会产生不稳定性,因为它们受到高方差的影响。
通过结合基于价值和基于策略的方法来开发“演员-评论家”算法。 价值函数(critic)和策略(actor)的参数化通过有效使用训练数据实现了稳定的收敛。
3. 基于模型
为每个环境创建一个虚拟模型,并且代理基于该模型进行学习。 模型构建包括状态采样、采取行动和观察奖励的步骤。 在环境中的每个状态下,模型都会预测未来状态和预期回报。 借助基于 RL 的模型的可用性,代理可以计划行动。 当规划过程与策略估计交织在一起时,代理就能够学习。
强化学习旨在通过在未知环境中探索代理来实现目标。 RL 的一个假设指出,目标可以描述为奖励的最大化。 智能体必须能够通过以动作的形式扰动状态来获得最大的奖励。 RL 算法可以大致分为基于模型和无模型。
强化学习模型
1.马尔可夫决策过程
马尔可夫决策过程中使用的参数集是
一组动作-A
状态集-S
奖励-R
政策-n
价值-V
马尔可夫决策过程是在强化学习中映射解决方案的数学方法。
2.Q学习
此过程向代理提供信息,告知要继续执行哪个操作。 这是一种无模型方法。 Q 值不断更新,表示在状态“s”中执行动作“a”的值。
强化学习和监督学习的区别
监督学习是机器学习的过程,监督者需要将知识输入到学习算法中。 监督者的主要功能包括图像、音频片段等训练数据的收集。
而在 RL 中,训练数据集主要包括一组情境和动作。 机器学习中的强化学习不需要任何形式的监督。 此外,强化学习和深度学习的结合产生了深度强化学习子领域。
RL 和监督学习之间的主要区别如下表所示。
强化学习 | 监督学习 |
决策是按顺序做出的。 过程的输出取决于当前输入的状态。 下一个输入将取决于前一个输入的输出,依此类推。 | 决定是在初始输入上还是在过程开始时馈入的输入上做出。 |
决定是依赖的。 因此,对相关决策序列进行标记。 | 决策是相互独立的。 因此,完成了所有决策的标记。 |
与环境的交互发生在 RL 中。 | 与环境无交互。 该过程适用于现有数据集。 |
RL 的决策过程类似于人脑的决策过程。 | 决策过程类似于人脑在向导的监督下做出的决策。 |
没有标记的数据集。 | 标记数据集。 |
学习代理不需要以前的培训。 | 为输出预测提供了先前的训练。 |
人工智能最能支持强化学习,在这种情况下,人类互动很普遍。 | 监督学习主要通过应用程序或交互式软件系统进行操作。 |
示例:国际象棋游戏 | 示例:对象识别 |
加固类型
强化学习有两种类型
1.积极
积极强化学习被定义为由特定行为产生的事件。 这对代理产生积极影响,因为它增加了学习的强度和频率。 结果,性能被最大化。 因此,变化会持续较长时间。 但是,状态的过度优化会影响学习的结果。 因此,强化学习不应该太多。
正强化的优点是:
- 性能最大化。
- 变化持续了较长时间。
2. 负面
负强化定义为在负面条件下,行为得到加强。 绩效的最低标准是通过负强化来定义的
负强化学习的优点是:
- 增加行为。
- 无视最低绩效标准
强化学习的缺点
- 仅提供足以满足最低限度的行为。
强化学习的挑战
强化学习虽然不需要模型的监督,但不是一种无监督学习。 但是,它是机器学习的不同部分。
与强化学习相关的一些挑战是:
- 模拟环境的准备。 这取决于要执行的任务。 创建逼真的模拟器是一项具有挑战性的任务。 该模型必须弄清楚环境的每一分钟和重要的细节。
- 特征和奖励设计的参与非常重要。
- 学习速度可能受参数影响。
- 将模型转移到训练环境中。
- 通过神经网络控制代理是另一个挑战,因为与神经网络的唯一通信是通过奖励和惩罚系统。 有时这可能会导致灾难性的遗忘,即在获得新知识的同时删除旧知识。
- 达到局部最小值是强化学习的挑战。
- 在真实环境条件下,可能存在部分观察。
- 强化学习的应用应该受到规范。 过多的 RL 会导致状态过载。 这可能会导致结果的减少。
- 真实环境是非平稳的。
加固的应用
- 在工业自动化机器人领域。
- RL 可用于企业的战略规划。
- RL 可用于涉及机器学习算法的数据处理技术。
- 它可用于根据学生的要求为学生定制培训材料。
- RL 可以应用于飞机的控制和机器人的运动。
在大型环境中,可以在以下情况下应用加固
- 如果分析解决方案不适用于已知的环境模型。
- 如果只提供环境的仿真模型。
- 当只有一种方法可以收集与环境交互的数据时。
强化学习有什么用?
- 强化学习有助于识别需要采取行动的情况。
- RL 的应用有助于了解哪个动作产生了最高的回报。
- RL 的用处在于为代理提供奖励功能。
- 最后,RL 有助于识别导致更大回报的方法。
结论
RL 不能适用于所有情况。 它的使用存在一定的局限性。
- 足够数据的可用性允许使用监督学习方法而不是 RL 方法。
- RL 的计算非常耗时,尤其是在考虑大型环境的情况下。
如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和 AI 执行 PG 计划,该计划专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT -B 校友身份,5 个以上实用的实践顶点项目和顶级公司的工作协助。
机器学习工作的未来是什么样的?
如今,机器学习的采用在不同的垂直行业中迅速增加。 从金融和投资领域到娱乐、媒体、汽车、医疗保健和游戏——今天很难找到任何不使用人工智能和机器学习的行业。 因此,机器学习工作的范围明显高于许多其他技术工作。 根据 Gartner 的报告,到 2022 年底,市场上估计将有 230 万个机器学习和 AI 工作。 此外,该领域专业人士的薪酬预计也将显着提高,起薪为每年 90 万印度卢比。
什么是人工智能云?
人工智能云是组织最近开始接受的一个相对较新的概念。 这个概念结合了人工智能和云计算,由两个因素驱动。 人工智能软件和工具正在为云计算提供新的和增强的附加值,而云计算现在在人工智能的采用中发挥着越来越重要的作用。 人工智能云包含特定用例的共享基础架构,各种项目和工作负载同时利用这些基础架构。 人工智能云的最大优势在于它成功地将人工智能硬件和开源软件结合在一起,在混合云设置上为客户(企业)提供人工智能 SaaS。
强化学习算法用在哪里?
强化学习算法具有各种应用,如商业战略规划、工业过程自动化机器人、飞机控制和机器人运动控制、机器学习、为学生开发定制培训系统、数据处理等等。 在这些情况下,使用强化学习算法特别有效,因为它可以轻松帮助发现实际需要采取行动的情况以及在一段时间内获得最高回报的行动。 但是,当有足够的数据可以使用监督学习方法提供解决方案时,不应应用强化学习。