当前位置: 首页 > news >正文

洛阳做公司网站wordpress移动端加底部导航

洛阳做公司网站,wordpress移动端加底部导航,有哪些好的网站项目,苏州自助建站平台文章目录 1. 什么是在线MC强化学习2. 什么是离线MC强化学习3. 在线MC强化学习有何缺点 1. 什么是在线MC强化学习 在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ …

文章目录

  • 1. 什么是在线MC强化学习
  • 2. 什么是离线MC强化学习
  • 3. 在线MC强化学习有何缺点

1. 什么是在线MC强化学习

在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)都是同一个策略,即: π = π s a m p l e \pi=\pi_{sample} π=πsample

简而言之:所谓在线,就是在对一个初始策略评估的同时,利用 ϵ − \epsilon- ϵ贪心算法对它进行及时改进。

2. 什么是离线MC强化学习

所在离线强化学习(off-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)不是同一个策略,即: π ≠ π s a m p l e \pi\ne\pi_{sample} π=πsample

3. 在线MC强化学习有何缺点

  • 所学到的策略可能不适合作为最终的策略使用。
    • 为什么?
      • 因为它引入的 ϵ − \epsilon- ϵ贪心算法虽然确保了完整轨迹覆盖状态的多样性,但却以牺牲较快找到最优策略为代价,它总是小心翼翼,认为最优行为有可能存在于依赖经验确定的最优行为之外;
      • 它没有考虑这一常识:随着轨迹覆盖了更多的状态和行为,随着这些状态行为对出现次数的增多,依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握
      • 如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略,而这样的策略能够帮助自己更快地优化最终所要采取的策略,就没有必要在策略评估和策略控制中采用同一策略了。

由于以上缺点,人们已经发展出了离线强化学习算法,它可以进一步细分为

  • 重要性采样MC强化学习算法
  • 加权重要性采样MC强化学习算法
http://www.yayakq.cn/news/38035/

相关文章:

  • 做网站推广邢台电器 东莞网站建设
  • 网站开发可以多少钱一个月做网站开发有什么专业证
  • 古典风格中药医药企业网站模板源码网络营销工具和方法
  • 网站怎样做排名订阅号 微网站
  • 网站建设备案是什么意思wordpress制作app
  • 提供小企业网站建设html5网站开发开题报告
  • 搭建wordpress网站wordpress wp_query paged
  • 南宁网站平台怎么做竞拍网站
  • 做芯片哪个网站推广网络营销案例ppt
  • 丰县网站建设推广常用的网络推广方式有哪些
  • 广东高端网站建设报价优的网站建设明细报价表
  • 西北建设有限公司官方网站淘宝如何做推广
  • 专门做网站的软件是wordpress后台登不进去
  • 怎么样网站泛解析宿迁网站建设价位
  • 网站主机空间价格做网站前台内容对应填充
  • 免费在线建站南昌网站公司
  • 网站架构是什么意思建设局网站查询
  • p2p网贷网站建设哪家好制定 网站改版优化方案
  • 电子商务网站建设市场做一个网站 多少钱
  • 网站建设 东八区网站编排类型
  • 做翻译的网站建网站要多少钱一年
  • 网站栏目定位中国站长工具
  • 网站设计 书籍广东企业品牌网站建设价格
  • 网站建设怎么在图片上加字中国建设注册管理中心网站首页
  • 佛山做网站推广wordpress yootheme
  • 我爱777在线免费观看自动优化网站建设电话
  • 电脑做网站怎么解析域名济南软件开发公司
  • 做企业网站对企业的好处给别人做网站怎么赚钱吗
  • 网站建设分组任务wordpress 管理密码忘记
  • 广州一起做的网站在线设计房屋装修