
3.3.3 DDPG
对于离散和低维的动作空间,我们可以使用DQN进行策略学习。然而,许多任务有着连续和高维的动作空间,如果要将DQN运用于连续域,一种方法就是把动作空间离散化,但是这会带来维数灾难。因为动作的数量会随着自由度的增加而呈指数倍增长,进而给训练过程带来很大困难。此外,单纯地对动作空间进行离散化会去除关于动作的结构信息。
为解决上述问题,2015年Lillicrap等人[1]将DQN的思想应用到连续动作中,提出了一种基于确定性策略梯度和演员-评论家的无模型算法——深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)。
DDPG借鉴了DQN的技术,采用经验回放和目标网络技术,减少了数据之间的相关性,增加了算法的稳定性和健壮性。虽然DDPG借鉴了DQN的思想,但是要直接将Q-learning应用到连续动作空间是不可能的,因此DDPG采用的是基于确定性策略梯度的演员-评论家方法。
DDPG采用的经验回放技术和DQN完全相同,但是目标网络的更新方式与DQN有所不同。DQN的目标网络是每隔N步和Q网络同步更新一次,而在DDPG中演员和评论家各自的目标网络参数θ-和ω-是通过缓慢变化的方式更新,不直接复制参数,以此进一步增加学习过程的稳定性,如下式所示:

在连续动作空间学习策略的主要挑战是如何有效地进行动作探索。由于DDPG使用的是Off-policy策略学习方法,因此可以通过额外增加一个噪声项N来构建一个探索策略:

综上所述,DDPG算法的演员网络参数θ和评论家网络参数ω的更新公式如下所示:

如图3-5所示,在网络结构上,与DQN相比,DDPG除了Q网络之外还多了一个策略网络,策略网络的输出为π(s)。同时,DQN的输入仅是连续的视频帧而不需要额外输入动作,每个离散动作都有一个单独的输出单元。而DDPG的Q网络则是在输入连续的视频帧后通过卷积神经网络得到特征,再输入动作a,最后输出Q值。

图3-5 DDPG的网络结构示意
DDPG的一个关键优点就是简洁,这使它能够很容易地应用到更复杂的问题中。不过DDPG也有一些局限性,最明显的就是它与大多数无模型的强化学习方法一样,需要大量的训练时间才能收敛。
[1] Lillicrap T P,Hunt J J,Pritzel A,et al.Continnons Control with Deep Reinforcement Learning[J].Computer Science,2015,8(6):A187.