之前我做过一个路径规划的项目,采用的是深度强化学习,设计思路是这样的:利用视觉传感器感知自身周围的环境信息,结合自身的位置信息和目标点组成一个状态空间作为网络的输入,以实际的线速度和角速度作为机器人下一步动作的输出。其中,设计合理的奖惩函数对项目的成败至关重要。

在训练过程中,避开障碍物是最关键的问题。若检测不到障碍物,机器人就会继续运行,但是若检测到障碍物,机器人则会基于深度强化学习算法避开障碍物。

通过做这个项目,我觉得基于强化学习不仅提高了机器人的探索能力,还能加强其避障能力,规划出的路径长度更短,在路径规划上有很强的可行性。对深度强化学习,我有丰富的从业经验,欢迎大家的咨询和合作。