强化学习(五)-Deterministic Policy Gradient (DPG) 算法及公式推导
针对连续动作空间,策略函数没法预测出每个动作选择的概率。因此使用确定性策略梯度方法。
0 概览
- 1 actor输出确定动作
- 2 模型目标:
actor目标:使critic值最大
critic目标: 使TD error最大 - 3 改进:
使用两个target 网络减少TD error自举估计。
1 actor 和 critic 网络
- 确定性策略网络
actor: a= π ( s ; θ ) \pi(s;\theta) π(s;θ) 输出为确定性的动作a - 动作价值网络
critic Q=q(s,a;w) ,用于评估动作a的好坏
2 critic网络训练
- 观察一组数据
(
s
t
,
a
t
,
r
t
,
s
t
+
1
)
(s_t,a_t,r_t,s_{t+1})
(st?,at?,rt?,st+1?)
即在状态 s t s_t st?时,执行动作 a t a_t at?,得到奖励 r t r_t rt?,和下一状态 s t + 1 s_{t+1} st+1? - a t 时刻 Q 值 : q t = q ( s t , a t , w ) a_t时刻Q值: q_t=q(s_t,a_t,w) at?时刻Q值:qt?=q(st?,at?,w)
-
a
t
+
1
时刻
Q
值
:
q
t
+
1
=
q
(
s
t
+
1
,
a
t
+
1
,
w
)
a_{t+1}时刻Q值: q_{t+1}=q(s_{t+1},a_{t+1},w)
at+1?时刻Q值:qt+1?=q(st+1?,at+1?,w) ,其中
a
t
+
1
=
π
(
s
t
+
1
;
θ
)
a_{t+1}=\pi(s_{t+1};\theta)
at+1?=π(st+1?;θ)
即TD Target = r t + γ ? q t + 1 r_t+\gamma * q_{t+1} rt?+γ?qt+1? - 目标:使t时刻的TD error最小
TD error: δ t = q t ? ( r t + γ ? q t + 1 ) \delta_t=q_t-(r_t+\gamma * q_{t+1}) δt?=qt??(rt?+γ?qt+1?)
w = w ? α ? δ t ? ? q ( s t , a t ; w ) ? w w=w-\alpha *\delta_t* \frac{\partial q(s_t,a_t;w)}{\partial w} w=w?α?δt???w?q(st?,at?;w)?
3 actor 网络训练
actor 网络目标是时critic值最大,所以要借助critic网络,将actor值带入critic网络,使critic最大。
- a=
π
(
s
;
θ
)
\pi(s;\theta)
π(s;θ) ,带入q(s,a;w)中 得到 q(s,
π
(
s
;
θ
)
\pi(s;\theta)
π(s;θ) ;w)
即使 q(s, π ( s ; θ ) \pi(s;\theta) π(s;θ) ;w) 最大
对 θ \theta θ求导:
g = ? q ( s , π ( s ; θ ) ; w ) ? θ = ? a ? θ ? ? q ( s , a ; w ) ? a g=\frac{\partial q(s,\pi(s;\theta);w)}{\partial \theta}=\frac{\partial a }{\partial \theta} *\frac{\partial q(s,a;w) }{\partial a} g=?θ?q(s,π(s;θ);w)?=?θ?a???a?q(s,a;w)? - 参数更新
θ = θ + β ? g \theta=\theta + \beta* g θ=θ+β?g
4 训练改进
4.1 主网络actor和critic更新
critic 网络更新时,在计算TD error时,使用了自举,会导致数据过高估计或者过低估计。
关键在于
t
+
1
t+1
t+1时刻的
a
t
+
1
和
q
t
+
1
怎么生成
a_{t+1}和q_{t+1}怎么生成
at+1?和qt+1?怎么生成
和其他方法一样,可以使用两个actor和两个critic网络,减少自举带来的估计。
- t+1 时的
a
t
+
1
a_{t+1}
at+1?使用另一个target 策略网络actor生成
a t + 1 = π ( s t + 1 ; θ ˉ ) a_{t+1}=\pi(s_{t+1};\bar\theta) at+1?=π(st+1?;θˉ) - 同样t+1时
q
t
+
1
q_{t+1}
qt+1?使用另一个target critic网络生成
q t + 1 = q ( s t + 1 , a t + 1 ; w ˉ ) q_{t+1}=q(s_{t+1},a_{t+1};\bar w) qt+1?=q(st+1?,at+1?;wˉ)
actor 参数更新方式不变。
critic更新方式变化,使用了target网络产生的
a
t
+
1
和
q
t
+
1
a_{t+1}和q_{t+1}
at+1?和qt+1?
4.2 target网络actor和critic更新
target 网络初始时来自主网络,后期更新时,部分来自主网络,部分来自自己。
w
ˉ
=
τ
?
w
+
(
1
?
τ
)
?
w
ˉ
\bar w= \tau *w +(1-\tau) * \bar w
wˉ=τ?w+(1?τ)?wˉ
θ
ˉ
=
τ
?
θ
+
(
1
?
τ
)
?
θ
ˉ
\bar \theta= \tau *\theta +(1-\tau) * \bar \theta
θˉ=τ?θ+(1?τ)?θˉ
5 其他改进措施
- 添加经验回放, Experience replay buffer
- 多步TD target
- target networks
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!