涔愮偣妫嬬墝涓嬭浇瀹夎-eshop100.vip

google seo -> telegram: @ehseo6

">Newsnet 2022-08-12 18:06
  • home  >   /plantigrade  >   涔愮偣妫嬬墝涓嬭浇瀹夎
  • 亚博网页版-亚博网页登陆-

    Table Of Contents
    Table Of Contents

    亚博网页版-亚博网页登陆-

    除了RMSProp算法以外,另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进 [1]。有意思的是,AdaDelta算法没有学习率这一超参数。

    7.7.1. 算法?

    AdaDelta算法也像RMSProp算法一样,使用了小批量随机梯度\(\boldsymbol{g}_t\)按元素平方的指数加权移动平均变量\(\boldsymbol{s}_t\)。在时间步0,它的所有元素被初始化为0。给定超参数\(0 \leq \rho < 1\)(对应RMSProp算法中的\(\gamma\)),在时间步\(t>0\),同RMSProp算法一样计算

    \[\boldsymbol{s}_t \leftarrow \rho \boldsymbol{s}_{t-1} + (1 - \rho) \boldsymbol{g}_t \odot \boldsymbol{g}_t.\]

    与RMSProp算法不同的是,AdaDelta算法还维护一个额外的状态变量\(\Delta\boldsymbol{x}_t\),其元素同样在时间步0时被初始化为0。我们使用\(\Delta\boldsymbol{x}_{t-1}\)来计算自变量的变化量:

    \[\boldsymbol{g}_t' \leftarrow \sqrt{\frac{\Delta\boldsymbol{x}_{t-1} + \epsilon}{\boldsymbol{s}_t + \epsilon}} \odot \boldsymbol{g}_t,\]

    其中\(\epsilon\)是为了维持数值稳定性而添加的常数,如\(10^{-5}\)。接着更新自变量:

    \[\boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{g}'_t.\]

    最后,我们使用\(\Delta\boldsymbol{x}_t\)来记录自变量变化量\(\boldsymbol{g}'_t\)按元素平方的指数加权移动平均:

    \[\Delta\boldsymbol{x}_t \leftarrow \rho \Delta\boldsymbol{x}_{t-1} + (1 - \rho) \boldsymbol{g}'_t \odot \boldsymbol{g}'_t.\]

    可以看到,如不考虑\(\epsilon\)的影响,AdaDelta算法与RMSProp算法的不同之处在于使用\(\sqrt{\Delta\boldsymbol{x}_{t-1}}\)来替代超参数\(\eta\)

    7.7.2. 从零开始实现?

    AdaDelta算法需要对每个自变量维护两个状态变量,即\(\boldsymbol{s}_t\)\(\Delta\boldsymbol{x}_t\)。我们按AdaDelta算法中的公式实现该算法。

    In [1]:
    
    %matplotlib inline
    import d2lzh as d2l
    from mxnet import nd
    
    features, labels = d2l.get_data_ch7()
    
    def init_adadelta_states():
        s_w, s_b = nd.zeros((features.shape[1], 1)), nd.zeros(1)
        delta_w, delta_b = nd.zeros((features.shape[1], 1)), nd.zeros(1)
        return ((s_w, delta_w), (s_b, delta_b))
    
    def adadelta(params, states, hyperparams):
        rho, eps = hyperparams['rho'], 1e-5
        for p, (s, delta) in zip(params, states):
            s[:] = rho * s + (1 - rho) * p.grad.square()
            g = ((delta + eps).sqrt() / (s + eps).sqrt()) * p.grad
            p[:] -= g
            delta[:] = rho * delta + (1 - rho) * g * g
    

    使用超参数\(\rho=0.9\)来训练模型。

    In [2]:
    
    d2l.train_ch7(adadelta, init_adadelta_states(), {'rho': 0.9}, features,
                  labels)
    
    loss: 0.243998, 0.506857 sec per epoch
    

    7.7.3. 简洁实现?

    通过名称为“adadelta”的Trainer实例,我们便可使用Gluon提供的AdaDelta算法。它的超参数可以通过rho来指定。

    In [3]:
    
    d2l.train_gluon_ch7('adadelta', {'rho': 0.9}, features, labels)
    
    loss: 0.244853, 0.433831 sec per epoch
    

    7.7.4. 小结?

    • AdaDelta算法没有学习率超参数,它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。

    7.7.5. 练习?

    • 调节AdaDelta算法中超参数\(\rho\)的值,观察实验结果。

    7.7.6. 参考文献?

    [1] Zeiler, M. D. (2012). ADADELTA: an adaptive learning rate method. arXiv preprint arXiv:1212.5701.

    7.7.7. 扫码直达讨论区?

    网赚亚博代理 体彩官方联系方式 万博体育商务 seo项目 亚博体育怎么开线
    IM体育总代 买球官方代理 流量境外博彩代理 AG真人官网总代 九游会怎么开线
    时时彩官方代理 完美官方代理 真人总代 灰产博彩官方代理 视讯官网招商
    色站博彩平台代理 真人代理合营 视讯官网招商 九游会商务 seo博彩官方代理