Pop-Art算法详细介绍

Pop与Art分别表示Preserving Outputs Percisely以及Adaptive Rescaling Target, 即在保障已历经样本输出不变的前提下自适应缩放target值的算法。这个算法来自文献：《Multi-task Deep Reinforcement Learning with popart》。

PopArt这个算法本来是用来处理多任务强化学习算法中，不同任务之间的奖励不一样的这样一个问题。例如，在吃豆人游戏中，智能体的目标是收集小球，收集一颗奖励10 分，而吃掉幽灵则奖励200到1600分，这样智能体对于不同任务就会有偏重喜好。

PopArt作为奖励修剪的替代方案

传统上，研究者通过在强化学习算法中使用奖励修剪（clipping rewards）来克服不同奖励量表的问题。奖励修剪会将大的分数和小的分数修剪为 1 或 -1，使预期的奖励大致正常化。虽然这会使学习变得更容易，但是它也改变了智能体的目标。例如，吃豆人游戏的目标是收集每个价值 10 分的小球，并消灭价值 200~1600 分的鬼魅。通过修剪奖励，智能体在收集小球和消灭鬼魅之间没有明显的差异，导致智能体只收集小球，而不会去追逐消灭鬼魅。当我们删除奖励修剪，并使用 PopArt 的自适应归一化来稳定学习时，它会导致发生完全不同的行为，智能体追逐消灭鬼魅，并获得更高的分数。

PopArt的工作原理

一般而言，深度学习依赖不断更新的神经网络的权重，使其输出更接近于所期望的目标输出。当神经网络被用到深度强化学习时也是如此。PopArt 通过估计这些目标的平均值和传播（如游戏中的得分）进行工作的。然后，在使用这些统计数据对目标进行归一化，然后再用他们来更新网络的权重。使用归一化目标可以使学习更加稳定可靠。为了获得准确的估计，如对未来的预期分数估计，网络的输出可以通过反转归一化过程重新调整到真正的目标范围。如果按部就班地完成，每次更新统计数据都会改变所有未归一化的输出，包括哪些已经非常好的输出。每当我们更新统计数据时，我们会通过向相反方向更新网络来防止这种情况的发生，这点完全是可以做到的。这意味着我们可以在保持先前学习过的输出不变的同时，能够享受到大规模更新的好处。正是出于这些原因，PopArt通过自适应地重新调整目标的同时精确地保存输出。

PopArt作为奖励修剪的替代方案

PopArt的工作原理

分类

最新文章

热门文章

最新评论

友情链接