1。背景及问题bingyi
我们知道,对于探索-利⽤⽽⾔,⽬前通常采⽤以下两种⽅法:四级英语报名网站报名入口
epsilon-greedy:-(以超参数形式给出)很有可能会导致智能体采取随机步骤,⽽不是按照它学到的策略采取⾏动。 通常的做法是,在训练开始时使该-,然后慢慢减⼩到⼀个较⼩的值,例如0.1或0.02。
熵正则化:将策略的熵添加到损失函数中时,在策略梯度⽅法中使⽤它,以惩罚我们的模型过于确定其⾏为。
⽽常见的启发式搜索在强化学习中的原则是“Optimism in the face of uncertainty”,这种⾯对不确定性乐观的属性就导致了启发式需要在智能体的性能表现上有理论保证,⽽这些⽅法的缺点在于仅限于使⽤在较⼩的状态、动作空间⽐较⼩或者是线性函数逼近的问题上效果还可以,对于⼀些问题复杂的函数毕竟问题并不能够很好的进⾏解决。
本⽂作者提出了⼀种NoisyNet,该⽅法主要包括将⾼斯噪声添加到⽹络的最后(完全连接)层。 噪声的参数可以在训练过程中通过模型进⾏调整,这使智能体可以决定何时以及以什么⽐例将权重引⼊不确定性。
爱好的英文
2.原理与数学过程
NoisyNet是⼀个神经⽹络,其权重和偏置会受到噪⾳的影响,
英语高考改革
ϵgreedy ϵgreedy =1
⼀般的,如果将NoisyNet数学表⽰为(x表⽰输⼊,y表⽰输出,表⽰噪⾳参数),作者在此处将定义为:
其中 定义为是⼀组可学习参数向量的集合, “”是零均值噪声的⽮量,具有固定统计量,表⽰逐元素乘法。那么关于
噪⾳参数的的损失函数我们表⽰为:储备基金
那么接下来的过程就是对进⾏优化。那如何优化呢?
接下来让我们思考这样⼀个问题
对于⼀个 个输⼊ 个输出来说,数学表⽰为 ,其中可知 , , ,这个理解起来很简单。那么如果给参数中添加噪⾳呢(也就是给⽹络结构添加噪⾳)?下⾯是作者给出的带有噪⾳参数的线性层数学表⽰:
乍看起来挺复杂,其中$w \left(\mu {w} \odot \varepsilon {b}+\sigma^{b} \odot
\varepsilon^{b})$,每个参数的维度如下:
y =f (x )θθθθ= def μ+Σ⊙ε
ζ= def (μ,Σ)ε⊙ε:(ζ)L ˉ= def E [L (θ)]
ζp q y =wx +b w ∈R q ×p x ∈R p b ∈R p y = def
cheerio>between的英语怎么读啊μ+σ⊙εx +(w w w )μ+b σ⊙b εb 等价于{w}+\sigma {w}\right)$,$b$等价于$(\mu μ
σεμ∈w R q ×p
σ∈w R q ×p ε∈w R q ×p μ∈b R q σ∈b R q ε∈b R q
其含义如下:
以上是如何引⼊噪⾳的问题,在论⽂中,作者尝试噪⾳参数引⼊的两种分布:
独⽴⾼斯噪声(Independent Gaussian Noi):噪声层的每个权重都是独⽴的,并且具有模型⾃⼰学习的和。也就是对于任意的(对应)和 (对应 )的参数都是来⾃⾼斯分布。共 个变量
分解⾼斯噪声(Factorid Gaussian Noi):包含噪⾳的输⼊输出:第⼀个具有输⼊p个单位的⾼斯分布噪⾳输⼊,第⼆个具有q个单位的⾼斯噪⾳输出。共 个变量,其分解如下:
这⾥的函数是⼀个实值函数
μσεi ,j w εj b εw εb (pq +q )εi (p +q )εi ,j w εj b
=f εf ε(i )(j )
=f ε(j )f :f (x )=sgn(x )∣x ∣ˉ
3. Deep NoisyNet 原理以及初始化过程
注:本⽂的Noisy是针对于值函数(动作-值函数)的,不是针对策略输出的action的
3.1 各种算法的NoisyNet 更新公式
其实数学的更新公式很简单,重新构造优化⽬标和优化参数(在原来的值函数基础上加⼊对应参数即可)NoisyNet-DQNadvocate的用法
NoisyNet-DuelingDQN
NoisyNet-A3C
3.2 噪⾳的初始化过程
1. 对于没有分解的⾼斯参数来说,每个元素 的采样来⾃于独⽴正态分布 ,其中表⽰神经⽹络的输⼊层的
输⼊。2. 分解⾼斯参数来说,采样来⾃于分布参见代码:(ζ)L
ˉ(ζ)=L ˉE E r +γQ y ,b ,ε;ζ−Q (x ,a ,ε;ζ)[(x ,a ,r ,y )∼D [b ∈A max (′−)]2
2014河南高考分数线](ζ)L ˉ s.t. b (y )∗=E E r +γQ y ,b (y ),ε;ζ−Q (x ,a ,ε;ζ)[(x ,a ,r ,y )∼D [(∗′−)]2]=arg Q y ,b (y ),ε;ζb ∈A max (′′)
=Q ^i γr +j =i ∑k −1j −i t +j γV x ;ζ,εk −i (t +k i )
μi ,j U [−,+]p 3p 3p U [,+]−p 1p 1
>家务英语