当前位置: 首页 > news >正文

dota2海涛做的网站网站做百度推广划算吗

dota2海涛做的网站,网站做百度推广划算吗,icp备案需要什么材料,站长分析工具这里写自定义目录标题 参考资料 Safe Reinforcement Learning环境算法CPO 2017 ICMLPCPO 2019 ICLRFOCOPS 2020 NIPSCRPO 2021 ICMLCUP 2022 NIPS TRPO 如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎 参考资料 Safe Reinforcement Learning 安全/约束强化学…

这里写自定义目录标题

  • 参考资料 Safe Reinforcement Learning
  • 环境
  • 算法
    • CPO 2017 ICML
    • PCPO 2019 ICLR
    • FOCOPS 2020 NIPS
    • CRPO 2021 ICML
    • CUP 2022 NIPS

TRPO
如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎

参考资料 Safe Reinforcement Learning

安全/约束强化学习路线图(Safe RL Roadmap)编辑于 2023-05-06

Safe RL 的一点点总结编辑于 2021-04-25
1.CPO
2.RCPO
3.CPPO-PID
4.SafeLayer+DDPG
5.Safety-Gym

【安全强化学习· 一】Safe Reinforcement Learning(一)2020

Constrained reinforcement learning
constrained markov decision processes

PKU-Alignment/Safe-Policy-Optimization 作者就是CUP的作者
NeurIPS 2023: Safe Policy Optimization: A benchmark repository for safe reinforcement learning algorithms
PKU-MARL/OmniSafe github
PKU-MARL/OmniSafe 作者就是CUP的作者
OpenAI/safety-starter-agents github

环境

safety-gym openai
Benchmarking Safe Exploration in Deep Reinforcement Learning, Ray et al, 2019.

safety-gymnasium
Bullet-Safety-Gym

算法

算法算法类型时间会议引用量
CPO约束策略优化CPO-based 二阶2017ICML1214
RCPO奖励约束策略优化Primal-Dual2018ICLR452
PCPO基于投影的约束策略优化CPO-based 二阶2019ICLR188
FOCOPS策略空间中的一阶约束优化CPO-based 一阶2020NIPS87
CRPO约束修正策略优化Lagrange2021ICML84
CUP约束更新投影CPO-based 一阶2022NIPS18

王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835 doi: 10.16383/j.aas.c220631

安全强化学习综述
2.2.2 信赖域法
约束型策略优化 (Constrained policy optimization, CPO)
基于投影的约束策略优化 (Projection-based constrained policy optimization, PCPO)
一阶约束优化方法 (First order constrained optimization in policy space, FOCOPS)
惩罚近端策略优化 (Penalized proximal policy optimization, P3O)
约束修正策略优化 (Constraint-rectified policy optimization, CRPO)
约束变分策略优化 (Constrained variational policy optimization, CVPO)

CPO 2017 ICML

Constrained Policy Optimization 上海交通大学 工学硕士
CPO omnisafe

PCPO 2019 ICLR

PCPO omnisafe

FOCOPS 2020 NIPS

FOCOPS slideslive
FOCOPS slideslive 短
FOCOPS omnisafe

CPO的问题
从当前策略获取样本轨迹时产生的错误。
泰勒近似引起的近似误差。
使用共轭法计算Fisher信息矩阵的逆矩阵会产生近似误差。

FOCOPS的优势
实现简单,只使用一阶近似。
简单的一阶法避免了泰勒法和共轭法引起的误差。
在实验中表现优于CPO。
不需要任何恢复步骤。

Two-stage Policy Update

CRPO 2021 ICML

知乎 钟典鱼
omnisafe代码
CRPO slideslive
CRPO slideslive 短
在这里插入图片描述
在这里插入图片描述

CUP 2022 NIPS

github代码
omnisafe代码git
omnisafe代码

强化学习 safe RL小综述 从TRPO出发 捋清CPO | CUP编辑于 2022-11-24

将GAE引入推导,得出了更紧的上下界
在具体的实现上做了改变,使得每次更新对计算资源的需求更小。

http://www.yayakq.cn/news/877619/

相关文章:

  • 常州网站关键词优化咨询百度怎样建设网站
  • 深圳市南山网站建设商标注册网上查询网
  • 传媒网站如何设计做网站的费用计入销售费用吗
  • 工信部个人备案网站可信吗专业图书商城网站建设
  • 河南做网站的费用wordpress与phpstudy
  • html5网站制作实战百度为何不收录你的网站产品页
  • 电商网站 流程图网站建设域名提前买吗
  • 杭州网站维护外包网页设计外文文献
  • 响应式网站建设教程wordpress栏目加密
  • 网络科技公司网站找人给公司做网站去哪找
  • 网站建设询价单有记事本做简易网站
  • 小面网站建设域名能卖多少钱一个
  • 一个完整的网站 技术百度网站建设在哪
  • 凡科网站建设总结网站备案 申请
  • 邯郸网站设计培训优质的广州做网站
  • 怎么自己在百度上做网站湘潭高端网站建设
  • 南充市建设局官方网站中小企业建站服务
  • 杭州萧山门户网站建设公司邢台123网站模板
  • 青木三色品牌商城网站开发学计算机编程需要什么基础
  • 做网站模板的软件网站设计管理方向
  • 郑州网站关键词排名技术代理asp官网
  • 肇庆网站seo网站外链隐形框架
  • 建设银行网站 开户行怎么查询网站被百度蜘蛛爬了多久放出来
  • 网站建设 案例wordpress怎么把分类弄成导航
  • 广安建设企业网站文娱热搜榜
  • 做企业网站类型互联网营销师报考条件
  • 厦门找一家做网站的公司好三河市最新消息
  • 西宁网站建设优化如何建立一个微信公众号平台
  • 网站外链建设设计陕西的网站建设公司排名
  • 网站建设速成班wordpress 不同分类