当前位置: 首页 > news >正文

招商加盟网站的图应该怎么做单位网站怎么制作

招商加盟网站的图应该怎么做,单位网站怎么制作,html网站开发实战,免费发布产品网站on-policy的定义:behavior policy和target-policy相同的是on-policy,不同的是off-policy。 behavior policy:采样数据的策略,影响的是采样出来s,a的分布。 target policy:就是被不断迭代修改的策略。 如果是基于深度…

on-policy的定义:behavior policy和target-policy相同的是on-policy,不同的是off-policy。

behavior policy:采样数据的策略,影响的是采样出来s,a的分布。
target policy:就是被不断迭代修改的策略。

如果是基于深度的算法,那么非常好分辨:目标函数里面一定有s和a的期望,而计算梯度的时候使用了SGD,把一个采样作为了期望的值。但是这里面还有一个隐含的限制就是采样遵循的分布必须是s,a的分布。

因此分辨是否是on-policy的,只需要看目标函数。如果目标函数中s,a的分布和策略相关的,那么一定是on-policy的,如果是策略无关的,那么一定是off-policy的。

比如DQN的目标函数:在这里插入图片描述
这里一个(s,a)对看成一个随机变量,服从均匀分布,因此分布和策略无关(至于为什么s,a是均匀分布,那个是算法自己假设的),因此采样的时候需要用到experience replay,使得不管什么策略采样得到的reward,都变成均匀分布的。

因此用了experice replay之后,随便什么策略采样,虽然采样出来s,a服从那个策略的分布,但是经过experice replay之后还是变成了均匀分布。

比如PG:
在这里插入图片描述

这里面的随机变量是s, 而s是服从stationary distribution,就是agent出现在这个state的次数形成的分布。而这个分布和策略pi是相关的,因此是on-policy的(改变策略之后,agent出现的概率也改变了)

比如DPG:

在这里插入图片描述
这里面的分布d是一个常数(这是为了计算梯度方便),因此DPG中s,a的采样和策略无关,是off-policy的。

比如PPO:

在这里插入图片描述
就是一个期望+一个类似正则项的东西,而非常明显看出来,这个期望是服从策略theta’的,也就是说s,a分布和策略相关,因此是on-policy的。

简单说下PPO:PPO用两个网络表示策略,一个是theta’一个是theta,用theta’网络的策略采样reward,得到的reward给theta的网络梯度下降。看起来怎么用了两个策略? 其实两个策略最后慢慢收敛到一起的,是一个策略。如果是off-policy是完全和策略无关的。

http://www.yayakq.cn/news/885444/

相关文章:

  • 北京网站开发团队最新新闻热点事件2024年
  • 厦门制作企业网站网站后台编辑技巧
  • 视频直播网站开发长沙互联网大厂
  • 郑州网站制作郑州网站制作网页qq登录手机版网址
  • 赣州做网站的公司有哪家精选赣州网站建设
  • 网站设计中主题有哪些作用做网站公司
  • 网站建设自己能做吗html网页制作背景图片
  • 电脑网站打不开是什么原因造成的深圳响应式设计企业网站
  • 郑州网站制作服务郑州企业健康码
  • 建设中学校园网站的来源乐清比较好的设计公司
  • 学校网站搭建如何修改网站后台
  • 微网站样式重庆招聘一般上什么网站
  • 代做机械毕业设计网站怎样在网站做宣传
  • 专做民宿预定的网站网奇e游通旅游网站
  • 腾网站建设网站建设和设计
  • 济南网站开发公司wordpress右侧菜单
  • 湖北专业网站建设设计wordpress广告代码没显示
  • 无锡营销型网站如果做网站接口
  • 有个网站经常换域名网站建设费经营范围
  • 梅州免费建站装饰设计做什么的
  • 美康优选网站怎么做的学做软件的网站
  • 做网站的主要内容软文案例300字
  • 盗网站后台源码wordpress模板手机
  • 网易企业邮箱登录网页版网站seo方案建设目标
  • 昭通市住房和城乡建设局网站qq网页游戏排行榜
  • 苏州网站关键词优化免费做拍卖网站
  • 高端网站建设加盟新余 网站建设公司
  • 新浪推网站建设邮箱网站
  • 银川兴庆建设局网站网络营销销售
  • wap网站开发框架vs2010做网站时间控件