当前位置: 首页 > news >正文

申请一个网站得多钱制作网页第一件事就是选定一种

申请一个网站得多钱,制作网页第一件事就是选定一种,做网站需要公司吗,公司网站建设备选方案评价标准2024/6/23: 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别(在线 or 离线) 首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在…

2024/6/23:

        前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。

浅谈主要区别(在线 or 离线)

        首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在看方程之前,先要理解Q值的概念——即当前状态S下采取动作A继续下去能够得到的最佳收益

        该方程通过Target值(采取当前动作后得到的奖励 + 采取动作后下一个状态根据某个策略选取动作的Q值)减去估计值(当前估计的当前状态采取A的Q值)再乘上一个类似于学习率的量来更新当前估计的当前状态的Q值,而方程的目的就是来逼近真正的最佳收益。可能有点绕,但是从类似于动态规划的角度看会明白一点。

        下面是on-policy和off-policy策略的区别:

        这两种策略本质上的区别是他们的时序差分方程,如下图所示,上面的target属于on-policy方法,下面的属于off-policy方法:

        on-policy主要应用于Sarsa方法,是一种在线的交互式的学习方法,大概就像是。采取这种策略的方法通过当前状态下选取的一定会执行的action来优化自身的Q表格。action的选取可以通过随机选取,也可以根据贪婪策略选取,然后根据这个选取的action计算得到的结果来更新Q表格。很显然,用这种方法进行训练的效率很慢,需要很长的时间方法才可以收敛,在我看来基本是off-policy方法的完全下位,但优点也存在,也就是对在线交互式实验方法的适应。

        从时序差分方程的角度看下面这张图,将其中的内容和方程中的联系起来看,就能大概理解sarsa做了什么:

        off-policy是一种更加常用的方法,Q-learning和DQN都属于这一类的方法。从方程中获取target值的区别就可以看到,他使用下个状态的采取所有动作的最佳Q值来优化,因此收敛也更快。

参考:在线/离线策略区别

面向新手:从零学习强化学习

http://www.yayakq.cn/news/242161/

相关文章:

  • 如何在淘宝客上做自己的网站如何写好一篇软文
  • 电子商务网站源码下载wordpress79元主题
  • 杭州seo网站推广十大广告设计公司简介
  • 西安网站建设推广公司哪家好用wordpress仿一个网站
  • 网站建设的费用记什么科目哪里有做装修网站
  • 公司做网站的法律依据阳江网络问政平台 周报
  • 网站建设html代码如何添加替换wordpress
  • 企业网站管理系统标签手册重庆做石材的网站
  • 如何用asp.net做网站短视频seo关键词
  • 西安SEO网站建设哪家好网站接广告平台
  • 绥芬河市建设局网站邢台建设企业网站费用
  • 深圳市住房建设部网站wordpress自定义文章
  • 网站建设国际深圳公司变更注册地址的流程
  • 学网站建设的学校花木网站源码
  • 3d设计公司企业网站优化兴田德润优惠
  • 外包网站制作多少钱网站建设企业站有哪些要求
  • 网站开发的理解做网站电子版报价模板
  • 单页网站产品做哈尔滨本地门户网站赚钱吗
  • 免费免费建站wordpress中文包
  • 智能建站公司上海做家庭影院的公司网站
  • 深圳网站 制作信科便宜国外网站 dns
  • html做的宠物网站网站域名查主机
  • 在京东上怎样做网站wordpress+移动客户端
  • 全国分站seo佛山新网站制作咨询
  • 制作公司网站用阿里云学校网站建设分工
  • 做网站资源存储网络营销logo
  • vue php 哪个做网站 好上网建立网站布置
  • 东莞市网站推广wordpress documentation
  • 织梦制作手机网站图片模板 网站源码
  • wordpress设主题商丘seo推广