1. Model-Free 与 Model-Based RL

根据Agent是否理解其所处的环境,即是否知道所依赖的马尔科夫决策过程的状态转移概率及对应回报,可以将强化学习方法分为:无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based RL)。

Model-Free RL直接让Agent在环境中做出动作,通过不断试错来找到针对特定环境的最佳策略。

Model-Based RL通过对环境进行理解,建立一个环境模型,Agent可以在模型中对下一步的状态和反馈做出预测,找出最佳策略,再在现实环境中做出动作。

Model-Free RLModel-Based RL
Q LeaningQ Leaning
SarsaSarsa
Policy GradientsPolicy Gradients

2. Policy-Based 与 Value-Based RL

根据Agent选取动作的策略不同,可以将强化学习方法分为:基于概率的强化学习(Policy-Based RL)和基于价值的强化学习(Value-Based RL)。

Policy-Based RL中Agent在某一状态时的所有可能动作都有一定概率被选中,只是不同动作有不同的概率。由于概率的分布可以是离散或者连续的,因此基于概率的强化学习适用于离散和连续的两种不同动作的选取。

Value-Based RL中会对Agent在某一状态时的所有可能动作,按对应得到的反馈值进行排序,并选用反馈值最高的动作。基于价值的强化学习只适用于离散动作的选取。

Policy-Based RLValue-Based RL
PGQ Leaning
Sarsa
AC、A2C、A3C、SAC
(Actor会基于概率做出动作,Critic会评估动作的反馈值)

3. Monte-Carlo Update 与 Temporal-Difference Update RL

根据策略或价值函数的更新频率,可以将强化学习方法分为:回合更新强化学习(Monte-Carlo Update RL, MC)和单步更新强化学习(Temporal-Difference Update RL, TD)

Monte-Carlo Update RL每次都需要采样一条完整的轨迹 τ \tau τ之后才能对策略或价值函数进行更新。

Temporal-Difference Update RL可以在每完成一步(得到一个观测,采取一个动作并得到反馈值)之后就对策略或价值函数进行更新。

Monte-Carlo Update RLTemporal-Difference Update RL
PGQ Leaning
MC LearningSarsa
DDPG
PPO、DPPO

4. On-Policy 与 Off-Policy RL

根据Agent是否直接与环境互动进行学习(更新策略或价值函数),可以将强化学习方法分为:在线学习(On-Policy RL)和离线学习(Off-Policy RL)

On-Policy RL需要Agent真实与环境互动,即学习过程中所用到的数据与样本,都是Agent从环境中观测到的。

Off-Policy RL不需要Agent直接与环境互动,即可以通过别的方法获取数据与样本进行学习,不需要Agent直接通过观测环境获得。

On-Policy RLOff-Policy RL
SarsaQ Leaning
Sarsa( λ \lambda λ)DQN
AC、A2C、A3CSAC
PPO
TRPO
Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐