强化学习概要性了解 2022-11-21 机器学习 暂无评论 73 次阅读 ---- 参考: > [Shusen Wang - YouTube](https://www.youtube.com/c/ShusenWang/playlists) >[wangshusen/DRL: Deep Reinforcement Learning (github.com)](https://github.com/wangshusen/DRL) >《深度强化学习》王树森 >《神经网络与深度学习》邱锡鹏 ## 一、前置知识 ### 1. 概率论 随机变量、随机变量的观测值、概率、概率质量函数、概率密度函数、条件概率、期望、随机抽样等。 ### 2. 蒙特卡洛近似 蒙特卡洛(Monte Carlo)是一大类随机算法(randomized algorithms)的总称,它们通过随机样本来估算真实值。 #### 2.1 近似期望  - 用蒙特卡洛求定积分近似上面公式中的定积分  - 更好的方法  #### 2.2 随机梯度  样本数量 B 称作批量大小(batch size),通常是一个比较小的正整数,比如 1、8、16、32。所以我们称之为最小批(mini-batch)SGD。  #### tips: 无偏估计 百度百科:无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。 样本均值的期望等于总体期望,样本方差的期望等于总体方差。 大数定律保证了蒙特卡洛的正确性,当样本数量趋于无穷,观测值的期望趋于真实期望。 ### 3. 马尔可夫 #### 马尔可夫性 在随机过程中,马尔可夫性质( Markov Property )是指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。 #### 马尔可夫决策过程(MDP)  ## 二、强化学习基本概念 智能体 (agent) 环境(environment) 状态 (state) 状态空间(state space) 动作(action) 动作空间(action space) 奖励(reward) 状态转移(state transition) 状态转移概率函数(statetransition probability function) 策略(policy) 随机策略 确定策略 智能体与环境交互(agent environment interaction) 轨迹(trajectory) 回报(return) 折扣回报(discounted return) ### 1. 强化学习目标  ### 2. 价值函数 评估策略$\pi$的期望回报  ## 三、强化学习大致分类 [OpenAI Spinning Up](https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html#)  - Model-free 和 Model-based 我们可以将所有强化学习的方法分为理不理解所处环境,如果我们不尝试去理解环境, 环境给了我们什么就是什么. 我们就把这种方法叫做 model-free, 这里的 model 就是用模型来表示环境, 那理解了环境也就是学会了用一个模型来代表环境, 所以这种就是 model-based 方法。 >[强化学习方法汇总 | 莫烦Python (mofanpy.com)](https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/intro-RL-methods) - Policy-based RL 和 Value-based RL  从决策方式来看,强化学习又可以划分为基于策略的方法和基于价值的方法。决策方式是智能体在给定状态下从动作集合中选择一个动作的依据,它是静态的,不随状态变化而变化。 在基于策略的强化学习方法中,智能体会制定一套动作策略(确定在给定状态下需要采取何种动作),并根据这个策略进行操作。强化学习算法直接对策略进行优化,使制定的策略能够获得最大的奖励。 而在基于价值的强化学习方法中,智能体不需要制定显式的策略,它维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。基于价值迭代的方法只能应用在不连续的、离散的环境下(如围棋或某些游戏领域),对于动作集合规模庞大、动作连续的场景(如机器人控制领域),其很难学习到较好的结果(此时基于策略迭代的方法能够根据设定的策略来选择连续的动作)。 基于价值的强化学习算法有Q学习(Q-learning)、 Sarsa 等,而基于策略的强化学习算法有策略梯度(Policy Gradient,PG)算法等。此外,演员-评论员算法同时使用策略和价值评估来做出决策。其中,智能体会根据策略做出动作,而价值函数会对做出的动作给出价值,这样可以在原有的策略梯度算法的基础上加速学习过程,取得更好的效果。 >[基于策略和基于价值的强化学习方法有什么区别? - 知乎 (zhihu.com)](https://www.zhihu.com/question/542423465) - on-policy 和 off-policy **行为策略:** 在强化学习中,我们让智能体与环境交互,记录下观测到的状态、动作、奖励,用这些经验来学习一个策略函数。在这一过程中,控制智能体与环境交互的策略被称作行 为策略。行为策略的作用是收集经验(experience),即观测的状态、动作、奖励。 **目标策略:** 强化学习的目的是得到一个策略函数,用这个策略函数来控制智能体。这个策略函数就叫做目标策略。 行为策略和目标策略可以相同,也可以不同。同策略是指用相同的行为策略和目标策略,如SARSA;异策略是指用不同的行为策略和目标策略,如DQN 异策略的好处是可以用行为策略收集经验,把 (s t ,a t ,r t ,s t+1 ) 这样的四元组记录到一个数组里,在事后反复利用这些经验去更新目标策略。这个数组被称作经验回放数组 (replay buffer),这种训练方式被称作经验回放(experience replay)。  - 回合更新 和 单步更新 Monte-carlo learning 和基础版的 policy gradients 等 都是回合更新制, Qlearning, Sarsa, 升级版的 policy gradients 等都是单步更新制. 因为单步更新更有效率, 所以现在大多方法都是基于单步更新。有的强化学习问题并不属于回合问题。 ## 四、value-based ## 五、policy-based ---- # Attention, learn to solve routing problems ## encoder   ## decoder   - Multi-head attention       The Transformer Network for the Traveling Salesman Problem -- Xavier Bresson  - train 标签: 组合优化 本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可。
评论已关闭