网站开发调研做cpa推广的网站怎么弄

当前位置: 首页 > news >正文

网站开发调研,做cpa推广的网站怎么弄,建设部证书公布网站,拒绝做网站的理由转载请注明出处#xff1a;小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你#xff0c;欢迎[点赞、收藏、关注]哦~ 深度强化学习#xff08;Deep Reinforcement Learning, DRL#xff09;是强化学习#xff08;RL#xff09;与深度学习#xff08;DL#xff09;… 转载请注明出处小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你欢迎[点赞、收藏、关注]哦~ 深度强化学习Deep Reinforcement Learning, DRL是强化学习RL与深度学习DL的交叉领域其核心在于利用深度学习的表征能力处理 RL 中的高维状态空间、复杂决策问题。传统 RL 在面对图像、语音等非结构化数据时难以有效提取特征而 DRL 通过神经网络如 CNN、RNN、Transformer自动学习状态表示实现了从感知到决策的端到端优化。 DRL 算法可按核心思想分为三大类每类均有代表性算法及改进版本 基于策略Policy-Based直接优化策略函数。在 DRL 中最终目标是找到能最大化累积奖励的最优策略。Policy Gradients 方法是直接对策略进行建模和学习将策略表示为一个参数化的函数比如神经网络通过调整参数来优化策略而不是像基于值函数的方法那样间接获取策略。例如对于一个机器人行走的任务策略网络的输入可能是机器人当前的状态如关节角度、位置等输出是机器人下一步的动作如腿部的运动指令。Policy Gradients 直接学习如何根据状态产生最优的动作而不是先学习值函数再根据值函数来确定动作。以近端策略优化PPO算法为例它通过重要性采样复用旧策略数据并采用裁剪目标函数约束策略更新幅度在连续动作空间任务中展现出高效的样本利用率与稳定的收敛性 与基于价值的方法形成鲜明对比。基于价值Value-Based学习最优动作价值。核心思想是不直接学习策略而是通过构建价值函数来评估在状态s下执行动作a的优劣 进而通过贪心策略如 ϵ-greedy选择动作。代表算法为深度 Q 网络DQN它用 CNN 处理游戏图像结合经验回放和目标网络首次在 Atari 游戏中超越人类水平。改进算法包括 Double DQN解耦动作选择与价值评估缓解最大化偏差。Dueling DQN分离价值函数的状态价值和动作优势提高收敛速度。Rainbow DQN融合多种改进技术如优先经验回放、分布式价值估计。 (1) 状态(State, s)是什么 表示智能体在环境中的当前信息包含做出决策所需的全部必要数据。可以是离散的如围棋棋盘布局或连续的如机器人传感器的数值。在部分可观测马尔可夫决策过程POMDP中智能体可能无法获取完整状态仅观测到部分观测值 o但在完全可观测场景如经典 RL中状态即观测值。 (2) 观察(Observation, o)是什么 智能体从环境中实际感知到的信息它可能只是状态的部分或噪声版本。在完全可观测环境中如经典棋盘游戏观察等于状态(o_t s_t此时环境被建模为马尔可夫决策过程MDP。在部分可观测环境中如机器人仅通过噪声传感器感知环境观察仅包含状态的部分信息甚至可能存在观测噪声此时环境被建模为POMDP。 (3) 动作(Action, a)是什么 智能体在某一状态下可执行的操作由环境允许的动作空间决定。离散动作有限个可选动作如 “上 / 下 / 左 / 右” 或 “开火 / 移动”。连续动作无限连续的动作空间如机械臂的旋转角度、自动驾驶的方向盘转角。 (4) 动作空间(Action Spaces)是什么 不同的环境允许不同类型的操作。给定环境中所有有效动作的集合通常称为动作空间 。一些环境如 Atari 和 Go具有离散的动作空间 其中只有有限数量的动作可供智能体使用。其他环境比如智能体在物理世界中控制机器人的地方有连续的动作空间 。在连续空间中动作是实值向量。 (5) 轨迹(Trajectory, \tau)是什么 智能体与环境交互的完整序列由状态和行动交替组成始于初始状态终于终止状态若环境为 episodio 式。数学形式\tau (s_0, a_0, s_1, a_1, \dots, s_T) 其中 s_t 是时刻 t 的状态a_t 是对应行动T 为终止时刻可能为无穷大对应连续型环境。意义 轨迹体现了智能体的决策路径其概率由策略和环境动态状态转移概率 P(s|s,a)共同决定。 (6) 策略(policy, \pi(a|s))是什么 简单来说策略就是agent在不同环境状态下决定采取何种动作的规则或方法。比如在一个游戏中智能体面对敌人来袭的状态策略会告诉它是选择攻击、躲避还是防御。 策略可以是确定性的即给定一个状态明确指定要采取的动作也可以是随机性的给出在该状态下采取每个可能动作的概率分布。例如在自动驾驶中看到红灯时确定性策略是停车而在股票交易中随机性策略可能是根据当前市场状态以 60% 的概率买入某只股票40% 的概率保持观望。 确定性策略 (Deterministic Policies) 下面的代码表示用于使用 torch.nn 包为 PyTorch 中的连续动作空间构建简单的确定性策略 pi_net nn.Sequential(nn.Linear(obs_dim, 64),nn.Tanh(),nn.Linear(64, 64),nn.Tanh(),nn.Linear(64, act_dim)) 这构建了一个多层感知器网络其中有两个大小为 64 的隐藏层和 \tanh 激活函数。如果 obs 是一个包含一批观测值的 Numpy 数组pi_net 可以用来获取一批动作如下所示 obs_tensor torch.as_tensor(obs, dtypetorch.float32) actions pi_net(obstensor) 随机策略 (Stochastic Policies) 深度强化学习中最常见的两种随机策略是分类策略和对角高斯策略 。分类策略可用于离散动作空间而对角高斯策略可用于连续动作空间。两个关键计算对于使用和训练随机策略至关重要从策略中采样动作 和 计算特定动作的log likelihoods。 分类策略就像是对离散行为的分类器。为分类策略构建神经网络的方式与分类器相同输入是观察然后是一些层可能是卷积或密集连接取决于输入的类型然后有一个最终的线性层为每个动作提供 logits然后是 softmax 将 logits 转换为概率。多元高斯分布或多元正态分布由均值向量和协方差矩阵描述。对角高斯分布是协方差矩阵仅在对角线上具有条目的特殊情况。因此我们可以用向量来表示它。对角高斯策略总是有一个神经网络从观察映射到平均动作。 (7) 奖励(Reward, r)是什么 环境在智能体执行动作后返回的标量反馈信号衡量该动作的 “好坏”。奖励是强化学习的核心驱动力智能体的目标是最大化累积奖励通常为折扣累积奖励 \sum{t0}^\infty \gamma^t r_t其中 \gamma \in [0,1] 为折扣因子。奖励设计需符合任务目标可能需要领域知识如机器人导航中到达目标点奖励 100碰撞障碍物奖励 - 50。 (8) 价值函数(Value Function, V^\pi(s))是什么 评估状态s的长期价值即从状态s出发遵循策略\pi所能获得的期望累积奖励。用于评估在某个策略下从特定状态开始能获得的期望累积奖励。包括状态值函数V(s)和状态-动作值函数Q(s, a)。 V(s) 表示从状态 s 开始按照给定策略执行能得到的期望总回报Q(s, a) 表示在状态 s 下执行动作 a 然后按照给定策略继续执行能得到的期望总回报。例如在一个寻宝游戏中状态值函数可以告诉智能体当前位置的价值即从当前位置开始找到宝藏的期望奖励而状态-动作值函数可以告诉智能体在当前位置采取某个动作如向前走、向左转等后的价值。数学公式其中期望由策略(\pi)和环境动态共同决定。 意义 价值函数帮助智能体判断 “当前状态的优劣”是策略评估的核心工具。例如在状态s下若V^\pi(s)高则说明该状态容易获得高奖励。 为何值函数是间接获取策略         值函数本身并不直接指定智能体在每个状态下应该采取什么动作而是通过评估不同状态和动作的价值来引导智能体选择最优动作从而间接确定策略。例如在基于值函数的强化学习算法中如 Q-learning智能体首先学习状态-动作值函数 Q(s, a)然后在每个状态下选择具有最高Q值的动作作为当前的最优动作这样逐渐形成一个策略。也就是说先通过学习值函数来了解每个状态-动作对的好坏再根据这些信息来确定采取什么动作而不是像直接对策略建模那样直接学习一个从状态到动作的映射。 (9) 行动-价值函数(Action-Value Function, Q^\pi(s,a))是什么 又称Q 函数评估在状态s下执行动作a后的长期价值即从状态s执行动作a后再遵循策略\pi的期望累积奖励。 与价值函数的区别 V^\pi(s) 仅依赖状态s是对状态的整体评估Q^\pi(s,a) 依赖状态s和动作a用于比较同一状态下不同动作的优劣如 “在状态s下选动作a_1还是a_2”。 在 Q-learning 中智能体直接学习 Q 函数通过\arg\max_a Q(s,a)选择最优动作无需显式定义策略。 (10) 策略参数是什么 用来描述和调整策略的一些变量。如果把策略想象成一个函数那么策略参数就是这个函数的参数。以神经网络为例神经网络的权重和偏置就是策略参数。通过调整这些参数可以改变策略函数的输出也就是改变智能体在不同状态下选择动作的方式。比如在一个下棋的智能体中策略参数决定了它在不同棋局状态下选择下一步棋的概率。优化策略参数的目的是让智能体的行为能够最大化累积奖励也就是让智能体做出最优的决策。 (11) 如何直接对策略进行建模和学习 策略网络通常使用神经网络来表示策略将状态作为网络的输入输出是动作的概率分布对于随机性策略或者直接是动作对于确定性策略。例如在一个机器人导航任务中将机器人当前的位置、周围环境的感知信息等作为策略网络的输入网络输出机器人下一步移动的方向和速度。 基于梯度的优化定义一个目标函数通常是期望累积奖励然后计算目标函数关于策略参数的梯度利用梯度上升算法来更新策略参数使得目标函数值不断增大即策略不断优化。如在训练一个玩游戏的智能体时根据游戏的得分奖励来计算梯度调整策略网络的参数让智能体在游戏中表现得越来越好。 采样与学习智能体根据当前的策略与环境进行交互收集状态、动作和奖励等样本数据。然后基于这些样本估计梯度并更新策略参数。例如在一个股票交易模拟环境中智能体根据当前的交易策略进行买卖操作记录每次操作的状态如股票价格、市场趋势等、动作买入、卖出或持有和获得的收益奖励通过这些数据来改进交易策略。 (12) 优势函数(Advantage Functions)是什么 有时在强化学习中我们不需要描述一个动作在绝对意义上有多好而只需要描述它比其他动作平均好多少。也就是说我们想知道这种行为的相对优势 。我们用优势函数使这个概念精确化 。对应于策略 \pi 的优势函数 A^{\pi}(s,a) 描述了在状态 s 中采取特定动作 a 比根据 \pi(\cdot|s) 随机选择动作好多少假设你永远根据 \pi 行动。在数学上优势函数定义为 参考资料 1、Part 1: Key Concepts in RL — Spinning Up documentation