首页 - 技术栈

郑州网站建设公司哪家好wordpress 页面微博

作者: 五速梦信息网
时间: 2026年04月20日 03:44

当前位置：首页 > news >正文

郑州网站建设公司哪家好,wordpress 页面微博,秒火食品代理网,网站建设ASP心得体会强化学习是一种机器学习方法#xff0c;通过agent与environment的互动#xff0c;学习适当的action policy以取得更大的奖励reward。本篇博客介绍强化学习的基础知识#xff0c;与两类强化学习模型。目录强化学习的基础设定policy based 强化学习的目标3个注意事项实际训练… 强化学习是一种机器学习方法通过agent与environment的互动学习适当的action policy以取得更大的奖励reward。本篇博客介绍强化学习的基础知识与两类强化学习模型。目录强化学习的基础设定policy based 强化学习的目标3个注意事项实际训练过程重要性采样value based 强化学习的目标Temporal Differential learning (TD learning)参考强化学习的基础设定强化学习和监督学习非监督学习一样是一种基本学习模式在强化学习的框架中一共有2个主体agent与environment。environment会给agent一些状态信息stateagent可以根据state的情况进行action的选择并从environment获得一些奖励reward。强化学习分为2类policy based和value based。二者并非互斥关系存在一些模型既是policy based又是value based 例如A3C[ICML2016]。 policy based 强化学习的目标强化学习的目标是学习一个policy使得最终全场决策下来得到的总reward最大。具体展开而言给定一个stateagent决策采取action的策略模型用π\piπ表示π\piπ的参数是θ\thetaθ由于policy根据state采取action我们可以用公式aπθ(s)a\pi_\theta(s)aπθ(s)表示。当agent做出action操作后environment会给出一个reward并更新状态至此一轮决策结束。多轮决策组成一个由state, action, reward组成的序列我们定义为τ(s1,a1,r1,…sT,aT,rT)\tau(s_1, a_1,r_1,…s_T,a_T,rT)τ(s1,a1,r1,…sT,aT,rT)。RτR\tauRτ是整场决策结束后总共的奖励Rτ∑t1TrtR\tau\sum{t1}^TrtRτ∑t1Trt强化学习的目的是最大化RτR\tauRτ。在实际决策过程中即便π\piπ和environment不变每一步的action依旧有随机性因而最终的奖励RτR\tauRτ也不会完全一致而是具有一些随机性。因此强化学习的目标为最大化一个π\piπ下的平均RτR\tauRτ即E[Rτ]∑τR(τ)p(τ∣θ)E[R\tau]\sum{\tau}R(\tau)p(\tau|\theta)E[Rτ]∑τR(τ)p(τ∣θ)很显然我们无法得到准确的期望因为我们无法把一个参数设定下所有的决策路径全都取一个遍因而实际使用中通过采样取平均值的方法得到一个期望的近似值。R(θ)≈1N∑n1NR(τn)R(\theta)\approx \frac{1}{N}\sum_{n1}^{N}R(\taun)R(θ)≈N1∑n1NR(τn)。强化学习的优化目标即为R(θ)≈1N∑n1NR(τn)R(\theta)\approx \frac{1}{N}\sum{n1}^{N}R(\taun)R(θ)≈N1∑n1NR(τn)。通过梯度下降提升优化目标这一步需要求R(θ)R(\theta)R(θ)的导数。∇Rθ∑τR(τ)∇p(τ∣θ)∑τR(τ)p(τ∣θ)∇p(τ∣θ)p(τ∣θ)∑τR(τ)p(τ∣θ)∇log(p(τ∣θ))p(τ∣θ)p(s1)p(a1∣s1)p(s2,r1∣s1,a1)…p(sT,rT−1∣sT−1,aT)log(p(τ∣θ))log(p(s1))∑t1Tlog(p(at∣st,θ))∑t1Tlog(p(rt,st−1∣st,at))∇log(p(τ∣θ))∑t1T∇log(p(at∣st,θ))\nabla R\theta\sum{\tau}R(\tau)\nabla p(\tau|\theta)\sum{\tau} R(\tau)p(\tau|\theta)\frac{\nabla p(\tau|\theta)}{p(\tau|\theta)}\sum_{\tau}R(\tau)p(\tau|\theta)\nabla log(p(\tau|\theta))\ p(\tau|\theta)p(s_1)p(a_1|s_1)p(s_2,r_1|s_1,a_1)…p(sT,r{T-1}|s{T-1},a{T})\ log(p(\tau|\theta))log(p(s1))\sum{t1}^Tlog(p(a_t|st,\theta))\sum{t1}^Tlog(p(rt,s{t-1}|s_t,at))\ \nabla log(p(\tau|\theta))\sum{t1}^T\nabla log(p(at|s{t},\theta))∇Rθτ∑R(τ)∇p(τ∣θ)τ∑R(τ)p(τ∣θ)p(τ∣θ)∇p(τ∣θ)τ∑R(τ)p(τ∣θ)∇log(p(τ∣θ))p(τ∣θ)p(s1)p(a1∣s1)p(s2,r1∣s1,a1)…p(sT,rT−1∣sT−1,aT)log(p(τ∣θ))log(p(s1))t1∑Tlog(p(at∣st,θ))t1∑Tlog(p(rt,st−1∣st,at))∇log(p(τ∣θ))t1∑T∇log(p(at∣st,θ)) 最终得到∇Rθ\nabla R\theta∇Rθ的表达式:∇Rθ≈1N∑n1N∑t1TR(τn)∇log(p(at∣st,θ))\nabla R\theta \approx \frac{1}{N}\sum{n1}^N\sum{t1}^TR(\tau_n) \nabla log(p(at|s{t},\theta))∇Rθ≈N1∑n1N∑t1TR(τn)∇log(p(at∣st,θ)) () 3个注意事项为什么要构成log的形式进行归一化降低采样偶然性对于低reward但高频对梯度的影响由于采样具有偶然性考虑到不被采样到的点以及R(τ)R(\tau)R(τ)有时候可能一直取正数将公式里的R(τ)R(\tau)R(τ)替换为R(τ)−bR(\tau)-bR(τ)−b进行修正()给每个梯度的权重只考虑了整场决策的reward忽略了每个action的独特性对其进行改进我们引入advantage functionAθ(st,at)A^\theta(s_t,a_t)Aθ(st,at)用于衡量sts_tst状态下采用ata_tat相对于其他action有多好的程度。实际训练过程给定初始化的参数θ0\theta_0θ0采样NNN个τ\tauτ计算每个τ\tauτ的reward,计算当前参数下的∇log(p(at∣st,θ))\nabla log(p(at|s{t},\theta))∇log(p(at∣st,θ))进行参数θ\thetaθ的梯度更新得到θ1\theta1θ1然后对新得到的参数进行下一轮的采样与梯度更新直至训练停止。这种训练方法被有一个问题每次更新参数都需要重新采样消耗了大量的时间。因而提出了off policy的方法减少采样带来的时间开销。重要性采样重要性采样importance sampling方法可以减小采样的个数极大地提升了采样的效率。其具体实现如下假定我们有一个分布ppp我们从分布ppp中进行采样得到xxx我们希望计算得到函数f(x)f(x)f(x)的期望值即Ex∼p[f(x)]E{x\sim p}[f(x)]Ex∼p[f(x)]。一个直观的思路是我们先根据分布ppp采样NNN个点然后计算这NNN个点的均值作为期望的估计。然而有时候我们无法直接从分布ppp进行采样这种时候可以从一个与分布ppp接近的分布qqq进行采样然后将结果转化为依据分布ppp采样的均值。 Ex∼p[f(x)]Ex∼q[f(x)p(x)q(x)]E{x\sim p}[f(x)]E{x\sim q}[f(x)\frac{p(x)}{q(x)}]Ex∼p[f(x)]Ex∼q[f(x)q(x)p(x)]这里的分布qqq应该尽可能接近分布ppp时公式才能在采样意义下成立。 off policy的方法使用重要性采样的方法降低了采样的次数进而减小了采样带来的时间开销。on policy方法与off policy方法最大的区别就是二者采样的方式是不同的on policy方法使用梯度下降方法更新参数后按照新参数进行采样而off policy方法依旧使用之前旧参数采样的结果这里假设了参数更新并未很多因而分布变化并不大。 on policy∇RθEτ∼pθ(τ)[R(τn)∇log(pθ(τ))]\nabla R\thetaE{\tau \sim p_\theta(\tau)}[R(\taun)\nabla log(p\theta(\tau))]∇RθEτ∼pθ(τ)[R(τn)∇log(pθ(τ))] off policy∇RθEτ∼pθ′(τ)[R(τn)pθ(τ)pθ′(τ)∇log(pθ(τ))]\nabla R\thetaE{\tau \sim p_{\theta }(\tau)}[R(\taun)\frac{p\theta(\tau)}{p{\theta }(\tau)}\nabla log(p\theta(\tau))]∇RθEτ∼pθ′(τ)[R(τn)pθ′(τ)pθ(τ)∇log(pθ(τ))] 可以发现off policy在参数设定为θ′\theta θ′下进行采样梯度下降更新的是θ\thetaθ而非θ′\theta θ′因此采样可以复用。 value based 强化学习的目标与policy based强化学习不同value based模型通过神经网络学习environment针对给定state以及action的reward帮助agent进行当前state进行action的决策。value based强化学习假定存在一个类似于先知的函数Q(s,a;θ)Q(s,a;\theta)Q(s,a;θ)它可以在给定state的条件下计算出每个action的奖励期望是多大并且用一个神经网络来学习它。有了这样的先知后模型自然可以通过选择当前state下reward最高的action进行操作。 Temporal Differential learning (TD learning) TD learning是训练上述Q(s,a;θ)Q(s,a;\theta)Q(s,a;θ)模型的方法其训练思想基于监督学习需要一个“真实标签”。但由于真实标签在这个训练场景下获取需要大量时间开销因此我们会用TD target来拟合真实的标签即拟合真实的rewardytrtmax⁡γQ(st1,at1;θ)y_trt\max \gamma Q(s{t1}, a_{t1}; \theta)ytrtmaxγQ(st1,at1;θ)并使用梯度下降方法来使得Q(st,at;θ)Q(s_t,a_t;\theta)Q(st,at;θ)接近yty_tyt。参考价值学习__Value-Based_Reinforcement_Learning(ps这个up也出了视频介绍policy-based reinforcement learning视频不长讲的很清晰李弘毅老师强化学习教学视频合集(ps:里面有一些视频内容是重合的可以挑着看