强化学习中的策略优化主要有两类:基于value价值的方法和基于policy策略的方法(当然两者的结合产生了 Actor-Critic 等算法)。基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于策略的方法则是直接显式地学习一个目标策略。
value-based方法是先通过计算出值函数,然后再求策略;policy-based方法则是直接计算策略,更加直接,收敛速度更快,但是也更容易达到局部最优。
value-based方法方差小,但偏差大,而policy-based方法无偏差,但方差大。
value-based方法一般用来解决离散动作问题,policy-based方法一般用于解决连续动作问题。
value-based方法常见的有:sarsa、q-learning、DQN
policy-based方法常见的有:policy-gradient思想下属的REINFORCE算法,它是策略梯度方法中最早提出的,也是最简单、最基本的方法。