当前位置: 首页 > news >正文

网站开发怎么谈客户网站开发会什么软件

网站开发怎么谈客户,网站开发会什么软件,系统优化工具,淘宝店铺运营这里写自定义目录标题 参考资料 Safe Reinforcement Learning环境算法CPO 2017 ICMLPCPO 2019 ICLRFOCOPS 2020 NIPSCRPO 2021 ICMLCUP 2022 NIPS TRPO 如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎 参考资料 Safe Reinforcement Learning 安全/约束强化学…

这里写自定义目录标题

  • 参考资料 Safe Reinforcement Learning
  • 环境
  • 算法
    • CPO 2017 ICML
    • PCPO 2019 ICLR
    • FOCOPS 2020 NIPS
    • CRPO 2021 ICML
    • CUP 2022 NIPS

TRPO
如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎

参考资料 Safe Reinforcement Learning

安全/约束强化学习路线图(Safe RL Roadmap)编辑于 2023-05-06

Safe RL 的一点点总结编辑于 2021-04-25
1.CPO
2.RCPO
3.CPPO-PID
4.SafeLayer+DDPG
5.Safety-Gym

【安全强化学习· 一】Safe Reinforcement Learning(一)2020

Constrained reinforcement learning
constrained markov decision processes

PKU-Alignment/Safe-Policy-Optimization 作者就是CUP的作者
NeurIPS 2023: Safe Policy Optimization: A benchmark repository for safe reinforcement learning algorithms
PKU-MARL/OmniSafe github
PKU-MARL/OmniSafe 作者就是CUP的作者
OpenAI/safety-starter-agents github

环境

safety-gym openai
Benchmarking Safe Exploration in Deep Reinforcement Learning, Ray et al, 2019.

safety-gymnasium
Bullet-Safety-Gym

算法

算法算法类型时间会议引用量
CPO约束策略优化CPO-based 二阶2017ICML1214
RCPO奖励约束策略优化Primal-Dual2018ICLR452
PCPO基于投影的约束策略优化CPO-based 二阶2019ICLR188
FOCOPS策略空间中的一阶约束优化CPO-based 一阶2020NIPS87
CRPO约束修正策略优化Lagrange2021ICML84
CUP约束更新投影CPO-based 一阶2022NIPS18

王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835 doi: 10.16383/j.aas.c220631

安全强化学习综述
2.2.2 信赖域法
约束型策略优化 (Constrained policy optimization, CPO)
基于投影的约束策略优化 (Projection-based constrained policy optimization, PCPO)
一阶约束优化方法 (First order constrained optimization in policy space, FOCOPS)
惩罚近端策略优化 (Penalized proximal policy optimization, P3O)
约束修正策略优化 (Constraint-rectified policy optimization, CRPO)
约束变分策略优化 (Constrained variational policy optimization, CVPO)

CPO 2017 ICML

Constrained Policy Optimization 上海交通大学 工学硕士
CPO omnisafe

PCPO 2019 ICLR

PCPO omnisafe

FOCOPS 2020 NIPS

FOCOPS slideslive
FOCOPS slideslive 短
FOCOPS omnisafe

CPO的问题
从当前策略获取样本轨迹时产生的错误。
泰勒近似引起的近似误差。
使用共轭法计算Fisher信息矩阵的逆矩阵会产生近似误差。

FOCOPS的优势
实现简单,只使用一阶近似。
简单的一阶法避免了泰勒法和共轭法引起的误差。
在实验中表现优于CPO。
不需要任何恢复步骤。

Two-stage Policy Update

CRPO 2021 ICML

知乎 钟典鱼
omnisafe代码
CRPO slideslive
CRPO slideslive 短
在这里插入图片描述
在这里插入图片描述

CUP 2022 NIPS

github代码
omnisafe代码git
omnisafe代码

强化学习 safe RL小综述 从TRPO出发 捋清CPO | CUP编辑于 2022-11-24

将GAE引入推导,得出了更紧的上下界
在具体的实现上做了改变,使得每次更新对计算资源的需求更小。

http://www.yayakq.cn/news/936651/

相关文章:

  • 企业官方网站建设目的深圳模板网站建设哪家好
  • 中国有什么网站做跨境零售网站开发应用
  • 深圳高端网站建设费用长沙互联网广告公司
  • 南通哪里学网站建设access快速开发平台
  • 做网站注册商标哪一类wordpress中怎么去掉默认页面模板中的评论框
  • 网站开发需要的工具网站交互界面
  • 土豆做视频在线观看网站wordpress访问速度慢
  • 彩票网站怎么建设网站开发 知识产权
  • 宫免费网站长沙建设网站企业
  • 网站建设立项说明书网站备案新增域名
  • 做电影网站要怎么拿到版权网络营销与直播电商是什么
  • 服务器租用网站模板在线公司logo设计
  • 排名好的青岛网站建设汽车品牌大全汽车网
  • 学科网站建设管理公司企业宣传片
  • 服务佳的广州网站建设合肥手机网站开发
  • 网站管理后台文章排序近几天的新闻大事
  • 想自己做网站该学些什么搭建一个视频网站
  • 自己做网站能赚到广告费吗郑州最近新闻事件
  • 关于网站建设的建议的征集西宁网络推广与营销
  • 温州网站推广优化东莞全域取消住房限购政策
  • 云南网站建设公司前十名做自媒体与做网站
  • 集团网站设计专业团队wordpress ajax钩子
  • 做网站 套用模板之后用什么改招聘网站建设费用多少钱
  • 绑定ip地址的网站个人怎么注册公司都需要什么手续
  • wordpress企业网站模板外贸是做什么的工作内容是什么
  • 佛山市南海区水利投资建设有限公司网站网站如果不续费会怎样
  • 网站在政务新媒体建设方案网站设计自己申请
  • 佛山微网站网站建设 人和商圈
  • 摄影赚钱的网站phpcms多个网站
  • 房屋装修设计师怎么学关键词优化排名工具