首页 - 技术栈

免费建博客网站免费十八种禁用网站

作者: 五速梦信息网
时间: 2026年04月20日 10:25

当前位置：首页 > news >正文

免费建博客网站,免费十八种禁用网站,广州建站软件,个人做购物商城网站会罚款吗第一部分 RL基础#xff1a;什么是RL与MRP、MDP 1.1 入门强化学习所需掌握的基本概念 1.1.1 什么是强化学习#xff1a;依据策略执行动作-感知状态-得到奖励强化学习里面的概念、公式#xff0c;相比ML/DL特别多#xff0c;初学者刚学RL时#xff0c;很容易被接连不断…第一部分 RL基础什么是RL与MRP、MDP 1.1 入门强化学习所需掌握的基本概念 1.1.1 什么是强化学习依据策略执行动作-感知状态-得到奖励强化学习里面的概念、公式相比ML/DL特别多初学者刚学RL时很容易被接连不断的概念、公式给绕晕而且经常忘记概念与公式符号表达的一一对应。为此学习RL的第一步就是一定要扎实关于RL的一些最基本的概念、公式(不要在扎实基础的阶段图快或图囵吞枣不然后面得花更多的时间、更大的代价去弥补)且把概念与公式的一一对应关系牢记于心这很重要。下面进入正题且先直接给出强化学习的定义和其流程然后再逐一拆解、说明。所谓强化学习(Reinforcement Learning简称RL)是指基于智能体在复杂、不确定的环境中最大化它能获得的奖励从而达到自主决策的目的。经典的强化学习模型可以总结为下图的形式你可以理解为任何强化学习都包含这几个基本部分智能体、行为、环境、状态、奖励逐一解释每个概念 Agent一般译为智能体就是我们要训练的模型类似玩超级玛丽的时候操纵马里奥做出相应的动作而这个马里奥就是Agentaction(简记为)玩超级玛丽的时候你会控制马里奥做三个动作即向左走、向右走和向上跳而马里奥做的这三个动作就是actionEnvironment即环境它是提供reward的某个对象它可以是AlphaGo中的人类棋手也可以是自动驾驶中的人类驾驶员甚至可以是某些游戏AI里的游戏规则reward(简记为)这个奖赏可以类比为在明确目标的情况下接近目标意味着做得好则奖远离目标意味着做的不好则惩最终达到收益/奖励最大化且这个奖励是强化学习的核心State(简介为)可以理解成环境的状态简称状态总的而言Agent依据策略决策从而执行动作action然后通过感知环境Environment从而获取环境的状态state进而最后得到奖励reward(以便下次再到相同状态时能采取更优的动作)然后再继续按此流程“依据策略执行动作-感知状态–得到奖励”循环进行。 1.1.2 RL与监督学习的区别和RL方法的分类此外RL和监督学习supervised learning的区别监督学习有标签告诉算法什么样的输入对应着什么样的输出譬如分类、回归等问题所以对于监督学习目标是找到一个最优的模型函数使其在训练数据集上最小化一个给定的损失函数相当于最小化预测误差最优模型 arg minE { [损失函数(标签,模型(特征)] } RL没有标签告诉它在某种情况下应该做出什么样的行为只有一个做出一系列行为后最终反馈回来的reward然后判断当前选择的行为是好是坏相当于RL的目标是最大化智能体策略在和动态环境交互过程中的价值而策略的价值可以等价转换成奖励函数的期望即最大化累计下来的奖励期望最优策略 arg maxE { [奖励函数(状态,动作)] } 监督学习如果做了比较坏的选择则会立刻反馈给算法 RL的结果反馈有延时有时候可能需要走了很多步以后才知道之前某步的选择是好还是坏监督学习中输入是独立分布的即各项数据之间没有关联 RL面对的输入总是在变化每当算法做出一个行为它就影响了下一次决策的输入
进一步RL为得到最优策略从而获取最大化奖励有基于值函数的方法通过求解一个状态或者状态下某个动作的估值为手段从而寻找最佳的价值函数找到价值函数后再提取最佳策略比如Q-learning、DQN等适合离散的环境下比如围棋和某些游戏领域基于策略的方法一般先进行策略评估即对当前已经搜索到的策略函数进行估值得到估值后进行策略改进不断重复这两步直至策略收敛比如策略梯度法(policy gradient简称PG)适合连续动作的场景比如机器人控制领域以及Actor-Criti(一般被翻译为演员-评论家算法)Actor学习参数化的策略即策略函数Criti学习值函数用来评估状态-动作对不过Actor-Criti本质上是属于基于策略的算法毕竟算法的目标是优化一个带参数的策略只是会额外学习价值函数从而帮助策略函数更好的学习此外还有对策略梯度算法的改进比如TRPO算法、PPO算法当然PPO算法也可称之为是一种Actor-Critic架构下文会重点阐述可能你还有点懵懵懂懂没关系毕竟还有不少背景知识还没有交待比如RL其实是一个马尔可夫决策过程(Markov decision processMDP)而为说清楚MDP得先从随机过程、马尔可夫过程(Markov process简称MP)开始讲起故为考虑逻辑清晰我们还是把整个继承/脉络梳理下。 1.2 什么是马尔科夫决策过程 1.2.1 MDP的前置知识随机过程、马尔可夫过程、马尔可夫奖励如HMM学习最佳范例中所说有一类现象是确定性的现象比如红绿灯系统红灯之后一定是红黄、接着绿灯、黄灯最后又红灯每一个状态之间的变化是确定的但还有一类现象则不是确定的比如今天是晴天谁也没法百分百确定明天一定是晴天还是雨天、阴天(即便有天气预报) 对于这种假设具有M个状态的模型共有个状态转移因为任何一个状态都有可能是所有状态的下一个转移状态每一个状态转移都有一个概率值称为状态转移概率相当于从一个状态转移到另一个状态的概率所有的个概率可以用一个状态转移矩阵表示下面的状态转移矩阵显示的是天气例子中可能的状态转移概率也就是说如果昨天是晴天那么今天是晴天的概率为0.5是多云的概率为0.375、是雨天的概率为0.125且这三种天气状态的概率之和必为1。接下来我们来抽象建模下。正如概率论的研究对象是静态的随机现象而随机过程的研究对象是随时间演变的随机现象(比如天气随时间的变化) 随机现象在某时刻t的取值是一个向量随机变量用表示比如上述天气转移矩阵便如下图所示在马尔可夫过程的基础上加入奖励函数和折扣因子就可以得到马尔可夫奖励过程(Markov reward processMRP)。其中奖励函数有点像贪心算法只考虑下一步的影响为什么使用期望呢? 奖励可能是随机的在强化学习或马尔可夫过程的实际应用中同一个状态 Sts 可能对应不同的奖励因为环境是随机的stochastic。例如你在游戏中进入一个房间状态 St“进入房间”。可能有 3 种情况不同的奖励你发现 10 个金币奖励 Rt110。你发现 5 个金币奖励 Rt15。你什么都没找到奖励 Rt10。你无法确定具体会得到哪个奖励但可以计算它们的期望值。假设 3 种情况的概率分别是 50%、30%、20%那么状态 St 的期望奖励就是 R(s)0.5×100.3×50.2×06.5 这就是为什么我们定义奖励函数 R(s) 时使用期望值Expectation。回报有点像动态规划是上面奖励的优化。从贪心算法 — 动态规划。可以说奖励是一个时刻的用大写字母Rreward表示。回报是一整个过程的用大字母GGoal或者是Get表示举个例子一个少年在面对“上大学、去打工、在家啃老”这三种状态哪一种更能实现人生的价值呢奖励函数基于奖励只看一瞬间那就会选择去打工贪心算法价值函数基于回报看的比较长远选上大学因为上了大学后面就会好事连连比如读研读博留学深造、进入大厂、娶个漂亮老婆、生个聪明孩子动态规划

上一篇：免费简历制作网站推荐网站开发工作室营业执照
下一篇：免费建立一个网站wordpress栏目页设置

免费建博客网站免费十八种禁用网站

相关文章

免费简历制作网站推荐网站开发工作室营业执照

免费检测网站seo查看网站是由什么开源做的

免费获取源码的网站ui设计是什么含义

免费建立一个网站wordpress栏目页设置

免费建立自己的网站代理中国品牌加盟网官网

免费建设旅游网站哪些网站用vue.js做的

成都网站开发收费定制网站制作广州

成都网站开发培训网站上的百度地图标注咋样做

成都网站开发工资百度竞价产品

成都网站建设招标企业网络推广运营技巧

成都网站建设优点项目

成都网站建设赢展网络架构种类