深刻理解强化学习中的Q值和V值

撰写于：2023-06-29 浏览：1234 次分类：强化学习电子书

在马尔可夫决策过程中，当智能体从一个状态S，选择动作A，会进入另外一个状态S'。同时，也会给智能体奖励R。

奖励既有正，也有负，正代表我们鼓励智能体在这个状态下继续这么做，负得话代表我们并不希望智能体这么做。在强化学习中，我们会用奖励R作为智能体学习的引导，期望智能体获得尽可能多的奖励。

需要注意的是：很多时候，我们并不能单纯通过R来衡量一个动作的好坏。我们必须用长远的眼光来看待问题。我们要把未来的奖励也计算到当前状态下，再进行决策。-

评估状态的价值，我们称为V值。它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望。

评估动作的价值，我们称为Q值。它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望。

一个状态的V值就是这个状态下所有动作的Q值，如下图所示：

关注公众号，了解站长最新动态