-
摘要: 深度确定性策略梯度(Deep deterministic policy gradient, DDPG)方法在连续控制任务中取得了良好的性能表现. 为进一步提高深度确定性策略梯度方法中经验回放机制的效率, 提出分类经验回放方法, 并采用两种方式对经验样本分类: 基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification, TDC-DDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification, RC-DDPG).在TDC-DDPG和RC-DDPG方法中, 分别使用两个经验缓冲池, 对产生的经验样本按照重要性程度分类存储, 网络模型训练时通过选取较多重要性程度高的样本加快模型学习. 在连续控制任务中对分类经验回放方法进行测试, 实验结果表明, 与随机选取经验样本的深度确定性策略梯度方法相比, TDC-DDPG和RC-DDPG方法具有更好的性能.Abstract: The deep deterministic policy gradient (DDPG) algorithm achieves good performance in continuous control tasks. In order to further improve the efficiency of the experience replay mechanism in the DDPG algorithm, a method of classifying the experience replay is proposed, where transitions are classified in two branches: deep deterministic policy gradient with temporal difference-error classification (TDC-DDPG) and deep deterministic policy gradient with reward classification (RC-DDPG). In both methods, two replay buffers are introduced respectively to classify the transitions according to the degree of importance. Learning can be speeded up in network model training period by selecting a greater number of transitions with higher importance. The classification experience replay method has been tested in a series of continuous control tasks and experimental results show that the TDC-DDPG and RC-DDPG methods have better performance than the DDPG method with random selection of transitions.
-
强化学习(Reinforcement learning, RL)中, Agent采用“试错”的方式与环境进行交互, 通过从环境中获得最大化累积奖赏寻求最优策略[1]. RL算法根据Agent当前所处状态求解可执行动作, 因此RL适用于序贯决策问题的求解[2]. 利用具有感知能力的深度学习作为RL状态特征提取的工具, 二者结合形成的深度强化学习(Deep reinforcement learning, DRL)算法是目前人工智能领域研究的热点之一[3-4].
在线DRL算法采用增量式方法更新网络参数, 通过Agent与环境交互产生经验样本
$ {e} = (s_t,a_t, $ $r_t,s_{t+1}) $ , 直接将此样本用于训练网络参数, 在一次训练后立即丢弃传入的数据[5]. 然而此方法存在两个问题: 1)训练神经网络的数据要求满足独立同分布, 而强化学习中产生的数据样本之间具有时序相关性. 2)数据样本使用后立即丢弃, 使得数据无法重复利用. 针对以上问题, Mnih等[6]采用经验回放的方法, 使用经验缓冲池存储经验样本, 通过随机选取经验样本进行神经网络训练. 然而经验回放方法中未考虑不同经验样本具有不同的重要性, 随机选取无法充分利用对网络参数更新作用更大的经验样本. Schaul等[7]根据经验样本的重要性程度赋予每个样本不同的优先级, 通过频繁选取优先级高的经验样本提高神经网络训练速度. 优先级经验回放一方面增加了对经验样本赋予和更改优先级的操作, 另一方面需要扫描经验缓冲池以获取优先级高的经验样本, 因此增加了算法的时间复杂度. 与优先级经验回放不同, 本文提出的分类经验回放方法对不同重要性程度的经验样本分类存储. 将此方法应用于深度确定性策略梯度(Deep deterministic policy gradient, DDPG)算法中, 提出了采用分类经验回放的深度确定性策略梯度(Deep deterministic policy gradient with classified experience replay, CER-DDPG)方法. CER-DDPG采用两种分类方式: 1)根据经验样本中的时序差分误差(Temporal difference-error, TD-error); 2)基于立即奖赏值进行分类. 其中, TD-error代表Agent从当前状态能够获得的学习进度, RL经典算法Sarsa、Q-leaning均采用一步自举的方式计算TD-error实现算法收敛. CER-DDPG中, 将大于TD-error平均值或立即奖赏平均值的经验样本存入经验缓冲池1中, 其余存入经验缓冲池2中. 网络训练时每批次从经验缓冲池1中选取更多数量的样本, 同时为保证样本的多样性, 从经验缓冲池2中选取少量的经验样本, 以此替代优先级经验回放中频繁选取优先级高的经验样本. 分类经验回放方法具有和普通经验回放方法相同的时间复杂度, 且未增加空间复杂度.本文主要贡献如下:
1) 采用双经验缓冲池存储经验样本, 并根据经验样本中的TD-error和立即奖赏值完成对样本的分类;
2) 从每个经验缓冲池中选取不同数量的经验样本进行网络参数更新;
3) 在具有连续动作空间的RL任务中进行实验, 结果表明, 相比随机采样的DDPG算法, 本文提出的基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-errer classification, TDC-DDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification, RC-DDPG)能够取得更好的实验效果. 并与置信区域策略优化(Trust region policy optimization, TRPO)算法以及近端策略优化(Proximal policy optization, PPO)算法进行比较, 进一步证明了本文所提出算法的有效性.
1. 背景
1.1 强化学习
马尔科夫决策过程(Markov decision process, MDP)是序贯决策的经典形式, 其中动作不仅影响到立即奖赏, 同样影响后续的状态或动作, 以及采取后续动作所获得的未来奖赏. 因此, 通常使用MDP对RL问题进行建模, 将RL问题定义为一个五元组
$ (S,A,P,R,\gamma) $ .$ S $ 表示状态空间,$ {A} $ 表示动作空间,$P:S\times A\times S\rightarrow[0,1]$ 表示状态迁移概率,$R:S\times A\rightarrow{\bf{R}}$ 为奖赏函数,$ \gamma $ 为折扣因子[8]. 通过MDP可以构建Agent与环境的交互过程, 每一离散时间步$ t $ , Agent接收到来自环境的状态表示$ s_t $ , 在此基础上执行动作$ a_t $ . 该时间步之后, Agent收到来自环境反馈的标量化奖赏$ r_t $ 并处于下一状态$ s_{t+1} $ .Agent执行的动作由策略
${\text{π}}$ 定义, 策略$ {\text{π}}$ 为状态映射到每个动作的概率:$ S\rightarrow P(A) $ . RL的目标为求解最优策略${\text{π}}^* $ , 在遵循策略$ {\text{π}}^* $ 的情况下能够获得最大的累积奖赏$G_t =\sum_{t' = t}^{T}{\gamma^{t'-t}r(s_{t'},a_{t'})}$ , 其中,$ T $ 表示该情节终止时间步.状态动作值函数
$ Q^{\text{π}}(s,a) $ 表示Agent在当前状态$ s_t $ 下执行动作$ a_t $ , 遵循策略$ {\text{π}} $ 所获得的期望累积奖赏$$ Q^{{\text{π}}}(s,a) = {{\rm{E}}_{\text{π}}}[G_t|s_t = s,a_t = a] $$ (1) $ Q^{{\text{π}}}(s,a) $ 满足具有递归属性的贝尔曼方程$$ Q^{{\text{π}}}(s,a) = {{\rm{E}}_{\text{π}}}[r_{t+1}+\gamma Q^{{\text{π}}}(s_{t+1},a_{t+1})|s_t = s,a_t = a] $$ (2) 迭代计算贝尔曼方程可实现值函数的收敛. 当前时刻状态动作估计值函数与更好地估计
$r_{t+1}+ $ $ \gamma Q^{{\text{π}}}(s_{t+1},a_{t+1}) $ 之间的误差称为TD-error$$ \delta_t = r_{t+1}+\gamma Q^{{\text{π}}}(s_{t+1},a_{t+1})-Q^{{\text{π}}}(s_t,a_t) $$ (3) 通过求解状态动作值函数仅局限于解决具有离散动作空间的RL问题, 面对具有连续动作空间的RL问题, 策略梯度方法提供了解决问题的方式[9].
1.2 深度确定性策略梯度方法
RL算法分为基于值函数和基于策略两种方法. 基于策略的方法可以解决大状态动作空间或连续动作空间RL问题[10]. 确定性策略梯度(Deterministic policy gradient, DPG)方法以行动者−评论家(Actor-critic, AC)算法为基础, 通过行动者将状态映射到特定动作, 评论家利用贝尔曼方程实现值函数的收敛[11-12].
DDPG中, 使用深度神经网络作为非线性函数逼近器构造行动者
$ \mu(s|{\pmb \theta}^\mu) $ 和评论家$ Q(s,a|{\boldsymbol{\theta}}^Q) $ 的网络模型. 受到深度Q网络(Deep Q-network, DQN)的启发, 设置行动者目标网络$ \mu'(s|{\boldsymbol{\theta}}^{\mu'}) $ 和评论家目标网络$ Q'(s,a|{\boldsymbol{\theta}}^{Q'}) $ . 由于DPG中行动者将状态映射到确定动作, 因此解决连续动作空间RL任务存在缺乏探索性问题[13]. DDPG算法通过添加独立于行动者网络的探索噪声$ Noise $ 构造具有探索性的行动者网络$ \mu' $ [14]$$ \mu'(s_t) = \mu(s_t|{\boldsymbol{\theta}}^\mu)+Noise $$ (4) 网络模型学习时, 评论家网络通过最小化损失函数
$ L({\boldsymbol{\theta}}^Q) $ 更新网络参数$$ L({\boldsymbol{\theta}}^Q) = {\rm{E}}_{s_t,a_t,r_t,s_{t+1}\sim {D}}[(y_t-Q(s_t,a_t|{\boldsymbol{\theta}}^Q))^2] $$ (5) 其中,
$$ y_t = r(s_t,a_t)+\gamma Q'(s_{t+1},\mu'(s_{t+1}|{\boldsymbol{\theta}}^{\mu'})|{\boldsymbol{\theta}}^{Q'}) $$ (6) 行动者网络采用蒙特卡罗方法进行采样以逼近期望值, 可通过链式法则近似更新行动者网络参数, 如式(7)所示
$$ \begin{split} &\nabla_{{\boldsymbol{\theta}}^\mu}J({\boldsymbol{\theta}}^\mu) =\\ &\quad\frac{1}{N}\sum_i\nabla_aQ(s,a|{\boldsymbol{\theta}}^Q)|_{s = s_i,a = \mu(s_i)} \nabla_{{\boldsymbol{\theta}}^\mu}\mu(s|{\boldsymbol{\theta}}^\mu)|_{s_i} \end{split}$$ (7) 目标网络采用“soft”更新方式, 通过缓慢跟踪学习的网络更新参数
$$ {\boldsymbol{\theta}}'\leftarrow \tau{\boldsymbol{\theta}}+(1-\tau){\boldsymbol{\theta}}' $$ (8) “soft”更新方式使得不稳定问题更接近于监督学习, 虽减慢了目标网络参数更新速度, 但在学习过程中能够获得更好的稳定性.
DDPG同样用到了经验回放机制, 将行动者网络与环境交互产生的经验样本
$ e = (s_t,a_t,r_t,s_{t+1}) $ 存入经验缓冲池中, 网络训练时通过从经验缓冲池中随机选取每批次经验样本用于网络参数的更新. 随机选取方式未考虑不同经验样本的重要性, 如何更有效利 用缓冲池中的样本数据成为经验回放机制面临的主要挑战.2. 采用分类经验回放的DDPG算法
本节将介绍CER-DDPG算法的思想和结构, 对采用的分类方法分析说明, 最后描述算法流程并分析.
2.1 分类经验回放
经验回放机制在消除数据样本之间关联性的同时能够提高样本利用率. 在Agent与环境交互产生的经验样本中, 不同经验样本对网络训练所起作用不同, 某些经验样本比其他经验样本更能有效地促进网络模型学习. 等概率选取每一个经验样本会在简单样本上花费较多的时间, 增加了算法训练时间步数. 因此, 本文所提出的分类经验回放方法最主要的一点是对不同重要性程度经验样本分类存放, 在网络模型学习时分别从不同类别经验样本中选取每批次样本数据. 对于重要性程度高的经验样本, 每批次以较多数量选取, 同时为保证样本数据多样性, 每批次选取少量重要性程度低的经验样本.
TDC-DDPG中, 使用两个经验缓冲池存放经验样本. 初始化网络模型时, 将两个经验缓冲池中所有样本TD-error的平均值设置为0. 每产生一条新的经验样本, 首先更新所有经验样本TD-error的平均值, 再将该条样本数据的TD-error与平均值进行比较, 若该经验样本中的TD-error大于所有样本TD-error的平均值, 则将该样本存入经验缓冲池1中, 否则存入经验缓冲池2中.
RC-DDPG方法根据经验样本中的立即奖赏值进行分类, 具体分类方法与TDC-DDPG方法相同. CER-DDPG算法结构如图1所示.
图1中, 在每一时间步
$ t $ , 行动者网络执行动作$ a_t $ , 产生经验样本$ e = (s_t,a_t,r_t,s_{t+1}) $ 后, 首先对该样本数据进行分类, 然后再进行存储操作. 优先级经验回放中使用一个经验缓冲池存储所有经验样本, 根据样本不同重要性程度赋予每个样本不同优先级, 网络训练时扫描经验缓冲池获取经验样本, 通过更频繁地选取优先级高的样本加快网络模型训练速度. CER-DDPG方法在经验样本存储前, 将其按照重要性程度分类, 减少了赋予以及更改优先级的操作, 并且在选取每批次数据样本时从不同经验缓冲池中随机选取, 不需要扫描经验缓冲池, 能够获取高重要性程度经验样本的同时减少了算法时间复杂度.分类经验回放中最关键的是经验样本分类的衡量标准. 本文提出的CER-DDPG方法分别采用经验样本中的TD-error和立即奖赏值对样本进行分类.
1) TD-error经验样本分类. DDPG算法中, 评论家采用时序差分误差的形式对行动者网络做出的动作选择进行评价, 网络参数更新时使用一步自举的方式计算TD-error, TD-error反映了Agent从当 前状态经验样本中的学习进度, 利用TD-error尤其适用于增量式DRL算法参数的更新. 因此, TDC-DDPG中根据经验样本TD-error进行分类, 认为TD-error大的经验样本对神经网络参数更新幅度更大, 重要性程度更高, 并将TD-error值大于平均值的经验样本存入经验缓冲池1中.
2)立即奖赏经验样本分类. 神经科学研究表明啮齿动物在清醒或睡眠期间海马体中会重播先前经历的序列, 与奖赏相关的序列会更频繁地被重播[15-16]. 受到该观点启发, RC-DDPG方法中根据经验样本中的立即奖赏值对样本进行分类, 认为立即奖赏值大的经验样本重要性程度更高, 将立即奖赏值大于平均值的经验样本存入经验缓冲池1中, 其余存入经验缓冲池2中.
2.2 算法
为更有效地利用经验样本以及提高经验回放机制的效率, 将对经验样本的分类方法应用到DDPG算法中, 提出的CER-DDPG算法描述如算法1所示:
算法1. 采用分类经验回放的深度确定性策略梯度方法
1) 初始化行动者网络
$ \mu(s|{\boldsymbol{\theta}}^\mu) $ 和评论家网络$ Q(s,a|{\boldsymbol{\theta}}^Q) $ , 目标网络参数$ {\boldsymbol{\theta}}^{\mu'}\leftarrow{\boldsymbol{\theta}}^\mu $ 和$ {\boldsymbol{\theta}}^{Q'}\leftarrow{\boldsymbol{\theta}}^Q $ , 经验缓冲池$ D_1 $ ,$ D_2 $ , 批次抽样数量$ N_1 $ ,$ N_2 $ , 折扣因子$ \gamma $ , 最大情节数$ E $ , 每情节最大时间步$ T_{\max} $ .2)
${\bf{for}}\; episode = 1,E \; {\bf{do}}$ 3) 初始化探索噪声
$ Noise $ 4) 获取初始状态
$ s_t $ 5)
${\bf{for}}\; t = 1,T_{\max} \; \bf{do}$ 6) 选择动作
$ a_t = \mu(s_t|{\boldsymbol{\theta}}^\mu)+Noise $ 7) 执行动作
$ a_t $ , 获得立即奖赏$ r_t $ 和下一状态$ s_{t+1} $ 8) 根据经验样本
$ e_i = (s_t,a_t,r_t,s_{t+1}) $ 的TD-error 或$ r_t $ 分类并存入经验缓冲池$ D_1 $ 或$ D_2 $ 中9) 从
$ D_1 $ 中选取$ N_1 $ 个经验样本,$ D_2 $ 中选取$ N_2 $ 个经 验样本10) 计算
$ y_i = r_i + \gamma Q'(s_{t + 1},\mu'(s_{t + 1}|{\boldsymbol{\theta}}^{\mu'})|{\boldsymbol{\theta}}^{Q'}) $ 11) 通过最小化损失函数
$ L({\boldsymbol{\theta}}^Q) $ 更新评论家网络参数:$$ \qquad\quad L({\boldsymbol{\theta}}^Q) = {\rm{E}}_{s_t,a_t,r_t,s_{t+1}}[(y_i-Q(s_i,a_i|{\boldsymbol{\theta}}^Q))^2] $$ 12) 通过策略梯度方法更新行动者网络:
$$\qquad\quad\begin{split} &\nabla_{{\boldsymbol{\theta}}^\mu}J({\boldsymbol{\theta}}^\mu) \approx\\ &\quad\frac{1}{N}\sum\limits_{i}\nabla_aQ(s,a|{\boldsymbol{\theta}}^Q)|_{s = s_i,a = \mu(s_i)} \nabla_{{\boldsymbol{\theta}}^\mu}\mu(s|{\boldsymbol{\theta}}^\mu)|_{s_i}\end{split} $$ 13) 更新目标网络:
$$\begin{split} &{\boldsymbol{\theta}}^{Q'}\leftarrow \tau{\boldsymbol{\theta}}^Q+(1-\tau){\boldsymbol{\theta}}^{Q'}\\ &{\boldsymbol{\theta}}^{\mu'}\leftarrow \tau{\boldsymbol{\theta}}^\mu+(1-\tau){\boldsymbol{\theta}}^{\mu'} \end{split}$$ 14)
$\bf{end}\; \bf{for}$ 15)
$\bf{end}\;\bf{for}$ 算法1中, 第3步为对行动者网络添加探索噪声过程, 第
$5\sim 7$ 步为产生经验样本的过程, 第$8\sim 9$ 步为经验样本的分类和获取过程, 第$10\sim 13$ 步为网络模型学习过程.由于不同任务中Agent每一时刻获得的立即奖赏值不同, 因此产生的经验样本TD-error和立即奖赏值存在差异, 难以采用固定数值作为分类的衡量标准. CER-DDPG方法中, 使用TD-error和立即奖赏平均值进行样本分类, 并且在产生经验样本过程中不断更新TD-error和立即奖赏平均值, 能够动态性地将不同经验样本准确分类. 分类经验回放方法相比普通经验回放方法仅增加了
$ {\rm{O}}(1) $ 的时间复杂度, 可忽略不计. 优先级经验回放中根据优先级大小频繁选取优先级高的经验样本, CER-DDPG方法通过每批次从经验缓冲池1中选取较多样本数量同样能够选取到重要性程度高的样本, 与优先级经验回放相比, CER-DDPG方法效率更高.3. 实验
为验证CER-DDPG方法的有效性, 在OpenAI Gym工具包中MuJoCo环境下进行实验测试. MuJoCo环境包含了一系列具有连续动作空间的RL任务, 本文分别在HalfCheetah、Ant、Humanoid、Walker、Hopper和Swimmer任务中进行测试. 实验以深度确定性策略梯度(DDPG)算法作为baseline, 分别以TD-error分类的深度确定性策略梯度(TDC-DDPG)方法和立即奖赏分类的深度确定性策略梯度(RC-DDPG)方法进行对比实验.
3.1 实验参数设置
为保证实验对比公平性, 本文实验参数设置与参考文献中DDPG算法一致, TRPO与PPO算法来自OpenAI baselines算法集. 对行动者网络添加的噪声均使用参数相同的Ornstein-Uhlenbeck噪声分布, 每批次样本数量均相等. DDPG中, 经验缓冲池大小设置为1000000, 批次选取样本数量取
$ N = 64 $ . TDC-DDPG和RC-DDPG中,$ D_1 $ 和$ D_2 $ 均为500000, 批次样本数量取$ N_1 = 48 $ ,$ N_2 = 16 $ . 每情节最大时间步数设置为$ T_{\max} = 1\,000 $ , 时间步数超过1000时情节重新开始. 行动者网络学习率$ \alpha^\mu = 1\times10^{-4} $ , 评论家网络学习率$ \alpha^Q = 1\times10^{-3} $ . 折扣因子$ \gamma = 0.99 $ , 目标网络更新时$ \tau = 0.001 $ .3.2 实验结果及分析
图2展示了在不同任务中3种算法的实验效果, 每个任务训练500个阶段, 每阶段包含2000个时间步, 通过对比每个训练阶段获得的平均累积奖赏衡量算法优劣.
如图2所示, 在大多数任务中TDC-DDPG和RC-DDPG算法性能优于随机选取经验样本的DDPG算法, 说明采用分类经验回放的方法能够选取到对网络模型学习更有效的经验样本, 在相同训练阶段内学习到累积奖赏更高的策略.
在HalfCheetah任务中, 通过控制双足猎豹Agent快速奔跑获取奖赏. 在网络模型训练的初始阶段中3种算法均能够取得较快学习速度. 而第20个训练阶段后, DDPG算法表现趋于平稳, TDC-DDPG和RC-DDPG算法仍然能够以较快的学习速度提升算法性能, 最终训练阶段具有明显优势.
在Humanoid和Swimmer任务中, 训练初始阶段TDC-DDPG和RC-DDPG算法优势并不显著, 随着训练时间步的增加, 在训练阶段后期算法优势逐渐明显. 因为在这两个任务中, 每一时间步Agent获得的立即奖赏值在很小的范围内波动, 导致RC-DDPG方法中两个经验缓冲池中样本类型很相近, TDC-DDPG方法根据经验样本TD-error分类, 立即奖赏值同样会影响到TD-error的大小, 因此初始训练阶段算法性能优势表现不明显. 然而在Walker任务中, 每一时间步获得的立即奖赏值大小不均导致3种算法训练得到的实验结果波动性均较大, 但本文提出方法实验效果更优.
Hopper任务通过控制双足机器人Agent向前跳跃获取奖赏. 由于状态动作空间维度低, Agent会执行一些相似动作导致经验样本相似, 因此分类经验回放方法性能提升不明显.
表1展示了500个训练阶段内3种算法在不同任务中所取得的平均奖赏值、最高奖赏值以及标准差.
表 1 连续动作任务中实验数据Table 1 Experimental data in continuous action tasks任务名称 算法 平均奖赏 最高奖赏 标准差 HalfCheetah DDPG 3 360.32 5 335.23 1 246.40 TDC-DDPG 5 349.64 9 220.27 2 368.13 RC-DDPG 3 979.64 6 553.49 1 580.21 Ant DDPG 551.87 1 908.30 307.86 TDC-DDPG 521.42 1 863.99 296.91 RC-DDPG 772.37 2 971.63 460.05 Humanoid DDPG 404.36 822.11 114.38 TDC-DDPG 462.65 858.34 108.20 RC-DDPG 440.30 835.75 100.31 Walker DDPG 506.10 1 416.00 243.02 TDC-DDPG 521.58 1 919.15 252.95 RC-DDPG 700.57 3 292.62 484.65 Hopper DDPG 422.10 1 224.68 180.04 TDC-DDPG 432.64 1 689.48 223.61 RC-DDPG 513.45 2 050.72 257.82 Swimmer DDPG 34.06 63.16 16.74 TDC-DDPG 44.18 69.40 19.77 RC-DDPG 38.44 71.70 21.59 从表1可以看出, 与DDPG方法相比, TDC-DDPG和RC-DDPG方法取得的平均奖赏和最高奖赏值更高, 不同训练阶段累积奖赏值差异更大, 导致标准差更大.
为进一步证明算法的有效性, 在HalfCheetah、Ant、Humanoid和Swimmer任务中增加了与TRPO算法以及PPO算法的对比实验. 从图3可看出, TDC-DDPG和RC-DDPG方法在与最新策略梯度算法比较中同样取得了更好的实验效果.
4. 结束语
DDPG算法在解决连续动作空间RL问题上取得了巨大成功. 网络模型学习过程中, 使用经验回放机制打破了经验样本之间存在的时序相关性. 然而经验回放未考虑不同经验样本的重要性, 不能有效利用样本数据, 对样本设置优先级又增加了算法时间复杂度. 因此, 本文提出分类经验回放方法并利用经验样本的TD-error和立即奖赏值进行分类存储用于解决经验回放中存在的问题. 在具有连续状态动作空间RL任务中的实验结果表明, 本文提出的TDC-DDPG和RC-DDPG方法在连续控制任务中表现更优.
-
表 1 连续动作任务中实验数据
Table 1 Experimental data in continuous action tasks
任务名称 算法 平均奖赏 最高奖赏 标准差 HalfCheetah DDPG 3 360.32 5 335.23 1 246.40 TDC-DDPG 5 349.64 9 220.27 2 368.13 RC-DDPG 3 979.64 6 553.49 1 580.21 Ant DDPG 551.87 1 908.30 307.86 TDC-DDPG 521.42 1 863.99 296.91 RC-DDPG 772.37 2 971.63 460.05 Humanoid DDPG 404.36 822.11 114.38 TDC-DDPG 462.65 858.34 108.20 RC-DDPG 440.30 835.75 100.31 Walker DDPG 506.10 1 416.00 243.02 TDC-DDPG 521.58 1 919.15 252.95 RC-DDPG 700.57 3 292.62 484.65 Hopper DDPG 422.10 1 224.68 180.04 TDC-DDPG 432.64 1 689.48 223.61 RC-DDPG 513.45 2 050.72 257.82 Swimmer DDPG 34.06 63.16 16.74 TDC-DDPG 44.18 69.40 19.77 RC-DDPG 38.44 71.70 21.59 -
[1] 张耀中, 胡小方, 周跃, 段书凯.基于多层忆阻脉冲神经网络的强化学习及应用.自动化学报, 2019, 45(08): 1536-1547.Zhang Yao-Zhong, Hu Xiao-Fang, Zhou Yue, Duan Shu-Kai. A novel reinforcement learning algorithm based on multilayer memristive spiking neural network with applications. Acta Automatic Sinica, 2019, 45(08): 1536-1547. [2] Dorpinghaus M, Roldan E, Neri I, Meyr H, Julicher F. An information theoretic analysis of sequential decision-making. Mathematics, 2017, 39(6): 429-437. [3] Yu Xi-Li. Deep reinforcement learning: an overview. Machine Learning, 2017, 12(2): 231-316. [4] 秦蕊, 曾帅, 李娟娟, 袁勇.基于深度强化学习的平行企业资源计划.自动化学报, 2017, 43(09): 1588-1596.Qin Rui, Zeng Shuai, Li Juan-Juan, Yuan Yong. Parallel enterprises resource planning based on deep reinforcement learning. Acta Automatic Sinica, 2017, 43(9): 1588-1596. [5] Mnih V, Kavukcuoglu K, Silver D, Graves A, Antonoglou A, Wierstra D, et al. Playing atari with deep reinforcement learning. In: Proceedings of the Workshops at the 26th Neural Information Processing Systems 2013. Lake Tahoe, USA: MIT Press, 2013. 201−220 [6] Mnih V, Kavukcuoglu K, Silver D, Andrei A, Rusu, Veness J. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533. doi: 10.1038/nature14236 [7] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. In: Proceedings of the 4th International Conference on Learning Representations. San Juan, PuertoRico, USA: ICLR, 2016. 322−355 [8] 高阳, 陈世福, 陆鑫.强化学习研究综述.自动化学报, 2004, 30(1): 86-100.Gao Yang, Chen Shi-Fu, Lu Xin. Research on reinforcement learning: a review. Acta Automatic Sinica, 2004, 30(1): 86-100. [9] Ertel W. Reinforcement Learning. London: Springer-Verlag, 2017. 12−16 [10] Peters J, Bagnell J A, Sammut C. Policy gradient methods. Encyclopedia of Machine Learning, 2010, 5(11): 774-776. [11] Sutton R S, Barto A G. Reinforcement learning: An introduction. Cambridge, USA: MIT Press, 2018. [12] Thomas P S, Brunskill E. Policy gradient methods for reinforcement learning with function approximation and action-dependent baselines. Artificial Intelligence, 2018, 16(4): 23-25. [13] Silver D, Lever G, Heess N, Degris T, Wierstra D, Riedmillerm M. Deterministic policy gradient algorithms. In: Proceedings of the 31st International Conference on Machine Learning. New York, USA: ACM, 2014. 387−395 [14] Lillicrap T P, Hunt J J, Pritzel A, Heess N, Erez T, Tassa Y. Continuous control with deep reinforcement learning. Computer Science, 2015, 8(6): A187. [15] Atherton L A, Dupret D, Mellor J R. Memory trace replay: the shaping of memory consolidation by neuromodulation. Trends in Neurosciences, 2015, 38(9): 560-570. doi: 10.1016/j.tins.2015.07.004 [16] Olafsdottir H, Barry C, Saleem AB, Hassabis D, Spiers HJ. Hippocampal place cells construct reward related sequences through unexplored space. Elife, 2015, 4: e06063. doi: 10.7554/eLife.06063 期刊类型引用(14)
1. 杨健健,程琪,章腾,黄先诚,韩子毅. 基于KP-DDPG的矿山运载机器人路径规划实验平台设计. 实验技术与管理. 2025(01): 143-151 . 百度学术
2. 薛旭,孙奇,李男,吴杰,王佳木,韩延涛,池刚毅. 开放智能无线网络架构和平台设计研究. 移动通信. 2024(03): 143-151 . 百度学术
3. 高东祥,张洪,修伟杰,张林. 基于深度强化学习改进的Smith预估器温度控制. 工业仪表与自动化装置. 2024(03): 54-59+99 . 百度学术
4. 荣垂霆,李海军,朱恒伟,刘延旭,于士军. 基于多维度优先级经验回放机制的深度确定性策略梯度算法. 德州学院学报. 2024(04): 21-27+32 . 百度学术
5. 杨皓麟,刘全. 基于策略蒸馏主仆框架的优势加权双行动者-评论家算法. 计算机科学. 2024(11): 81-94 . 百度学术
6. 宋晓勤,吴志豪,赖海光,雷磊,张莉涓,吕丹阳,郑成辉. 基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法. 通信学报. 2024(10): 116-128 . 百度学术
7. 盛煜,朱正伟,朱晨阳,诸燕平. 基于深度强化学习的多目标边缘任务调度研究. 电子测量技术. 2023(08): 74-81 . 百度学术
8. 陆鹏,付华,卢万杰. 基于深度确定性策略梯度与模糊PID的直流微电网VRB储能系统就地层功率控制. 电力系统保护与控制. 2023(18): 94-105 . 百度学术
9. 朱晓庆,陈江涛,张思远,刘鑫源,阮晓钢. 基于深度仲裁策略的四足机器人步态学习. 北京理工大学学报. 2023(11): 1197-1204 . 百度学术
10. 胡子剑,高晓光,万开方,张乐天,汪强龙,NERETIN Evgeny. 异策略深度强化学习中的经验回放研究综述. 自动化学报. 2023(11): 2237-2256 . 本站查看
11. 谭庆,李辉,吴昊霖,王壮,邓书超. 基于奖励预测误差的内在好奇心方法. 计算机应用. 2022(06): 1822-1828 . 百度学术
12. 周翔,陈盛,张津源,袁鑫,王新迎,王继业. 基于改进深度确定性策略梯度算法的微网优化调度研究. 电力信息与通信技术. 2022(07): 65-74 . 百度学术
13. 王雨轩,陈思溢,黄辉先. 基于改进深度强化学习的倒立摆控制器设计. 控制工程. 2022(11): 2018-2026 . 百度学术
14. 陈一波,赵知劲. 基于ET-PPO的双变跳频图案智能决策. 电信科学. 2022(11): 86-95 . 百度学术
其他类型引用(20)
-