谁是强化学习之父?

理查德·萨顿(Richard Sutton)被称为:现代强化学习之父。他的贡献包括时序差分学习和策略梯度方法,因此被称为现代强化学习之父。

理查德·萨顿的学术经历

理查德·萨顿于1978年获得斯坦福大学心理学学士学位,1980年获得硕士学位。1984年,在其导师安德鲁·巴托(Andrew Barto)的指导下,在马萨诸塞大学安姆斯特分校获得计算机科学博士学位。当前是Deepmind的研究科学家,阿尔伯塔大学计算机学教授。

理查德·萨顿的学术成就

理查德·萨顿和他的老师安德鲁·巴托(Andrew Barto)合著《强化学习导论》(Reinforcement Learning, an introduction),此书作为强化学的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。