强化学习算法分类汇总
文章目录1. Model-Free 与 Model-Based RL2. Policy-Based 与 Value-Based RL3. Monte-Carlo Update 与 Temporal-Difference Update RL4. On-Policy 与 Off-Policy RL1. Model-Free 与 Model-Based RL根据Agent是否理解其所处的环境,可以将强化
文章目录
1. Model-Free 与 Model-Based RL
根据Agent是否理解其所处的环境,即是否知道所依赖的马尔科夫决策过程的状态转移概率及对应回报,可以将强化学习方法分为:无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based RL)。
Model-Free RL直接让Agent在环境中做出动作,通过不断试错来找到针对特定环境的最佳策略。
Model-Based RL通过对环境进行理解,建立一个环境模型,Agent可以在模型中对下一步的状态和反馈做出预测,找出最佳策略,再在现实环境中做出动作。
Model-Free RL | Model-Based RL |
---|---|
Q Leaning | Q Leaning |
Sarsa | Sarsa |
Policy Gradients | Policy Gradients |
2. Policy-Based 与 Value-Based RL
根据Agent选取动作的策略不同,可以将强化学习方法分为:基于概率的强化学习(Policy-Based RL)和基于价值的强化学习(Value-Based RL)。
Policy-Based RL中Agent在某一状态时的所有可能动作都有一定概率被选中,只是不同动作有不同的概率。由于概率的分布可以是离散或者连续的,因此基于概率的强化学习适用于离散和连续的两种不同动作的选取。
Value-Based RL中会对Agent在某一状态时的所有可能动作,按对应得到的反馈值进行排序,并选用反馈值最高的动作。基于价值的强化学习只适用于离散动作的选取。
Policy-Based RL | Value-Based RL |
---|---|
PG | Q Leaning |
Sarsa | |
AC、A2C、A3C、SAC (Actor会基于概率做出动作,Critic会评估动作的反馈值) |
3. Monte-Carlo Update 与 Temporal-Difference Update RL
根据策略或价值函数的更新频率,可以将强化学习方法分为:回合更新强化学习(Monte-Carlo Update RL, MC)和单步更新强化学习(Temporal-Difference Update RL, TD)
Monte-Carlo Update RL每次都需要采样一条完整的轨迹 τ \tau τ之后才能对策略或价值函数进行更新。
Temporal-Difference Update RL可以在每完成一步(得到一个观测,采取一个动作并得到反馈值)之后就对策略或价值函数进行更新。
Monte-Carlo Update RL | Temporal-Difference Update RL |
---|---|
PG | Q Leaning |
MC Learning | Sarsa |
DDPG | |
PPO、DPPO |
4. On-Policy 与 Off-Policy RL
根据Agent是否直接与环境互动进行学习(更新策略或价值函数),可以将强化学习方法分为:在线学习(On-Policy RL)和离线学习(Off-Policy RL)
On-Policy RL需要Agent真实与环境互动,即学习过程中所用到的数据与样本,都是Agent从环境中观测到的。
Off-Policy RL不需要Agent直接与环境互动,即可以通过别的方法获取数据与样本进行学习,不需要Agent直接通过观测环境获得。
On-Policy RL | Off-Policy RL |
---|---|
Sarsa | Q Leaning |
Sarsa( λ \lambda λ) | DQN |
AC、A2C、A3C | SAC |
PPO | |
TRPO |
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)