当前位置: 首页 > news >正文

网站关键词排名不稳定有什么网站可以发布个人信息

网站关键词排名不稳定,有什么网站可以发布个人信息,wordpress无法创建,蚌埠网站设计2024/6/23: 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别(在线 or 离线) 首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在…

2024/6/23:

        前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。

浅谈主要区别(在线 or 离线)

        首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在看方程之前,先要理解Q值的概念——即当前状态S下采取动作A继续下去能够得到的最佳收益

        该方程通过Target值(采取当前动作后得到的奖励 + 采取动作后下一个状态根据某个策略选取动作的Q值)减去估计值(当前估计的当前状态采取A的Q值)再乘上一个类似于学习率的量来更新当前估计的当前状态的Q值,而方程的目的就是来逼近真正的最佳收益。可能有点绕,但是从类似于动态规划的角度看会明白一点。

        下面是on-policy和off-policy策略的区别:

        这两种策略本质上的区别是他们的时序差分方程,如下图所示,上面的target属于on-policy方法,下面的属于off-policy方法:

        on-policy主要应用于Sarsa方法,是一种在线的交互式的学习方法,大概就像是。采取这种策略的方法通过当前状态下选取的一定会执行的action来优化自身的Q表格。action的选取可以通过随机选取,也可以根据贪婪策略选取,然后根据这个选取的action计算得到的结果来更新Q表格。很显然,用这种方法进行训练的效率很慢,需要很长的时间方法才可以收敛,在我看来基本是off-policy方法的完全下位,但优点也存在,也就是对在线交互式实验方法的适应。

        从时序差分方程的角度看下面这张图,将其中的内容和方程中的联系起来看,就能大概理解sarsa做了什么:

        off-policy是一种更加常用的方法,Q-learning和DQN都属于这一类的方法。从方程中获取target值的区别就可以看到,他使用下个状态的采取所有动作的最佳Q值来优化,因此收敛也更快。

参考:在线/离线策略区别

面向新手:从零学习强化学习

http://www.yayakq.cn/news/110753/

相关文章:

  • 要给公司做一个网站怎么做的吗大丰做网站哪家最好
  • 广州php网站建设昆明网站建设 昆明光硕
  • 淘客手机端网站建设进京服务的链接
  • 网站的交流的功能怎么做电商网站怎么做聚合
  • 做网站建设多少钱响应网站建设
  • 在线音乐网站怎么做深圳策划公司排名
  • 网站管理和建设工作职责全国建造师信息查询网
  • 百度站长平台怎么验证网站网站域名申请流程
  • 武隆网站建设公司深圳市建设招标网
  • 马家堡做网站的公司除了seo还可以做哪些推广呢
  • 枣阳网站建设等服务wordpress音悦台
  • 餐饮加盟什么网站建设55建筑网官网
  • 网站301在哪里做九江巿建设局网站
  • 给公司做网站销售怎样啦dede网站安全设置防挂马教程
  • 神东集团网站建设网站建设具体步骤
  • 广东网站建设公司电话国外 网站页面
  • 网站营销是什么意思免费咨询医生在线解答
  • 宝安网站建设公司南京核酸最新通知
  • 有没有免费网站建设烟台网站设计制作公司电话
  • 肥城网站开发公司成都公司网站
  • 浪起网站建设妇科医生免费咨询
  • 重庆做网站费用文山建设5G网站
  • 网站查询ip地址查询河南省考生服务平台官网
  • 容易做的html5的网站哪个网站做网站好
  • 空间信息网站接做网站单子
  • 合肥高端品牌网站建设网页设计公司建设网站
  • 郑州企业网站排名优化哪家好分析旅游网站的功能
  • WordPress更改网站地址大宗交易查询平台
  • 杭州网站设计网页浙江省国有建设用地出让网站
  • 眉山建设网站wordpress菜单文本