当前位置: 首页 > news >正文

怎样能让百度搜到自己的网站撩人的网站怎么做

怎样能让百度搜到自己的网站,撩人的网站怎么做,企业网站备案网站,学做宝宝衣服网站常见优化器整理 一、SGD(随机梯度下降) 公式: 经典的mini-batch SGD使用的很多,效果也比较不错,但是存在一部分问题 选择恰当的初始学习率很困难学习率调整策略受限于预先制定的调整规则相同的学习率被应用于各个参数…

常见优化器整理

一、SGD(随机梯度下降)

  • 公式:在这里插入图片描述

  • 经典的mini-batch SGD使用的很多,效果也比较不错,但是存在一部分问题

    • 选择恰当的初始学习率很困难
    • 学习率调整策略受限于预先制定的调整规则
    • 相同的学习率被应用于各个参数
    • 高度非凸的误差函数的优化过程,如何避免陷入大量的局部次优解或鞍点

梯度下降遇到的问题

  1. 很难选择一个合适的学习率,如果学习率太小,将会导致收敛非常缓慢;如果学习率太大,也会阻碍收敛,导致损失函数值在最小值附近波动甚至发散。
  2. 上述问题可以通过提前定义一个学习速率表,当达到相应轮数或者阈值时根据表改变学习率,但是这样无法适应训练数据本身特征。
  3. 并且,对于所有参数我们使用同一个学习速率,如果我们的数据是稀疏的或者我们特征具有不同的频率,我们可能不希望将它们更新到同样的程度,并且我们希望对那些出现频率低的特征更新更快。
  4. 另外在神经网络中,普遍是具有非凸的误差函数,这使得在优化网络过程中,很容易陷入无数的局部最优点,而且更大困难往往也不是陷入局部最优点,而是来自鞍点(也就是在一个维度上其梯度是递增,另一个维度其梯度是递减,而在鞍点处其梯度为0),这些鞍点附近往往被相同误差点所包围,且在任意维度梯度近似为0,所以随机梯度下降很难从这些鞍点逃出。

二、AdaGrad(Adaptive Gradient 自适应梯度)

  • 能够对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,对稀疏的参数以更大的步长进行更新

  • 公式

    • 在这里插入图片描述
  • 增加了分母(梯度平方和的平方根),能够累积个参数的历史梯度评分,频繁更新的梯度累计分母大,步长就小;稀疏的梯度累积的梯度分母小,步长就大。AdaGrad能够自动为不同参数适应不同的学习率(平方根的分母项相当于对学习率α进行了自动调整),大多数的框架实现采用默认学习率α=0.01

  • 优势:在数据分布稀疏的场景,能够更好利用稀疏梯度的信息,比标准SGD更容易收敛

  • 缺点:分母项不断累积,当时间累积后,会导致学习率收缩到太小导致无法收敛

三、RMSProp

  • 结合梯度平方的指数移动平均数来调节学习率变化,能够在不稳定的目标函数情况下很好收敛。

  • 公式

    • 计算t时刻的梯度
      在这里插入图片描述

    • 计算梯度平方的指数移动平均数(Exponential Moving Average),γ是遗忘因子(指数衰减率),默认设置为0.9
      在这里插入图片描述

    • 梯度更新的时候,与AdaGrad类似,只是更新的梯度平方的期望(指数移动均值),其中ε=10−8,避免除数为0。默认学习率α=0.001。
      在这里插入图片描述

  • 优势:能够克服AdaGrad梯度急剧减小的问题,再很多应用中都展现出优秀的学习率自适应能力,尤其在不稳定(Non-Stationary)的目标函数下,比基本的SGD、Momentum、AdaGrad表现更良好。

四、Adadelta

  • Adadelta算法可以解决上述问题,其一阶向量跟adagrad一样,二阶参数有所变化:
    在这里插入图片描述

  • 二阶参数表达式跟动量表达式相似,引入了参数γ,可以知道二阶动量其实之前所有梯度平方的一个加权平均值,表达式如下:
    在这里插入图片描述

  • 从而可以解决AdaGrad带来的分母越来越大的问题

五、Adam(adaptive Moment Estimation自适应矩估计)

  • Adam是一种将动量和Adadelta或RMSprop结合起来的算法,也就引入了两个参数β1和β2,其一阶和二阶动量公式为:
    在这里插入图片描述

  • 但是由于一阶和二阶动量初始训练时很小,接近于0,因为β值很大,于是又引入一个偏差来校正:
    在这里插入图片描述

  • 其中t代表其t次方,所以刚开始训练时,通过除以(1-β)就可以很好修正学习速率,当训练多轮时,分母部分也接近1,又回到了原初始方程,所以最后总的梯度更新方程为:
    在这里插入图片描述

  • 其中β1默认值为0.9,β2默认值为0.999,ε为10-8,Adam集合动量和Adadelata两者的优点,从经验中表明Adam在实际中表现很好,同时与其他自适应学习算法相比,更有优势。

http://www.yayakq.cn/news/405873/

相关文章:

  • 做外包任务网站专业做室内设计的网站
  • 网站维护等厂房建设招标网站
  • 吉林省四平市网站建设生产管理软件app
  • 做宴会网站wordpress 创建分类
  • wordpress主题 yusi重庆网站建设seo优化
  • 代充网站怎么做wordpress 邮箱免验证
  • 国外平面设计师网站网站建设微商城
  • 网站建设域名怎么用游戏小程序源码
  • 网站建设需要微信账号和密码穆棱seo
  • 北师大 网页制作与网站建设 考试浙江手机网站建设
  • 自己怎么做响应式网站做网站用到什么技术
  • 手机端网站设计尺寸手机怎样创建网站
  • 山东住房建设厅官网站首页wordpress 设置图片大小
  • 帮人做网站 怎么收费免费加盟游戏代理
  • 网站空间管理系统vi视觉形象设计
  • 国际设计网站有哪些公司静态网站模板
  • 怎么找到php网站的首页面htmlwordpress内核源码分析
  • 网站主页面布局怎么做网站图片分辨率尺寸
  • 高端摄影网站模板下载广州专业网络推广公司
  • 什么网站比较容易做权重金融服务网站建设内容
  • 网站备案信息登记表自己做网站美工
  • 河南浪博网站开发yy直播间爱豆周五见
  • 网站建设和推广的完整话术深圳公司注册资金实缴要求
  • 江西建设工程招标投标网站做分类信息网站模板
  • 单一产品网站如何做seo网页设计培训主要经营范围
  • 做网站需要哪些语言什么样的网站可以做站群
  • 图书销售网站网页设计模板完成门户网站建设
  • 制作商品网站龙岩天宫山旅游攻略
  • 毕节建设公司网站便宜的网站空间
  • 网站被做镜像什么意思公司网站突然404