当前位置: 首页 > news >正文

家装设计师需要考证吗深圳优化怎么做搜索

家装设计师需要考证吗,深圳优化怎么做搜索,品牌建设流程图,企业年金值得交吗ICLR 2022 Poster Intro 部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作,这就容易导致采取了OOD的数据。因此,IQL取消max,,通过一个期望回归算子…

ICLR 2022 Poster

Intro

部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作,这就容易导致采取了OOD的数据。因此,IQL取消max,,通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。

method

期望回归(Expectile Regression)

arg ⁡ min ⁡ m τ E x ∼ X [ L 2 τ ( x − m τ ) ] , \arg\min_{m_\tau}\mathbb{E}_{x\sim X}[L_2^\tau(x-m_\tau)], argmτminExX[L2τ(xmτ)],
其中 L 2 τ ( u ) = ∣ τ − 1 ( u < 0 ) ∣ u 2 . L_2^\tau(u)=|\tau-\mathbb{1}(u<0)|u^2. L2τ(u)=τ1(u<0)u2. 函数如下所示
在这里插入图片描述
最右边的图可以看出,越大的 τ \tau τ使得预测值逼近上界。

IQL

IQL将上述的 L 2 τ L_2^{\tau} L2τ替换掉MSE来优化Q
L ( θ ) = E ( s , a , s ′ , a ′ ) ∼ D [ L 2 τ ( r ( s , a ) + γ Q θ ^ ( s ′ , a ′ ) − Q θ ( s , a ) ) ] . L(\theta)=\mathbb{E}_{(s,a,s',a')\sim\mathcal{D}}[L_2^\tau(r(s,a)+\gamma Q_{\hat{\theta}}(s',a')-Q_\theta(s,a))]. L(θ)=E(s,a,s,a)D[L2τ(r(s,a)+γQθ^(s,a)Qθ(s,a))].
然而上式存在一个问题。 Q θ ^ Q_{\hat{\theta}} Qθ^中采样的下一个动作具有一定的随机性,即使由较大的target Q也无法代表这是一个最优动作。因此这里来利用状态价值函数去并逼近这个Q:
L V ( ψ ) = E ( s , a ) ∼ D [ L 2 τ ( Q θ ^ ( s , a ) − V ψ ( s ) ) ] . L_V(\psi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[L_2^\tau(Q_{\hat{\theta}}(s,a)-V_\psi(s))]. LV(ψ)=E(s,a)D[L2τ(Qθ^(s,a)Vψ(s))].
采用均值就有效增加鲁棒性。而得到 V 后将通过MSE来优化Q网络:
L Q ( θ ) = E ( s , a , s ′ ) ∼ D [ ( r ( s , a ) + γ V ψ ( s ′ ) − Q θ ( s , a ) ) 2 ] . L_Q(\theta)=\mathbb{E}_{(s,a,s')\sim\mathcal{D}}[(r(s,a)+\gamma V_\psi(s')-Q_\theta(s,a))^2]. LQ(θ)=E(s,a,s)D[(r(s,a)+γVψ(s)Qθ(s,a))2].

AWR

价值函数完成优化后便是优化策略。这里采用的是AWR方法
L π ( ϕ ) = E ( s , a ) ∼ D [ exp ⁡ ( β ( Q θ ^ ( s , a ) − V ψ ( s ) ) ) log ⁡ π ϕ ( a ∣ s ) ] L_\pi(\phi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[\exp(\beta(Q_{\hat{\theta}}(s,a)-V_\psi(s)))\log\pi_\phi(a|s)] Lπ(ϕ)=E(s,a)D[exp(β(Qθ^(s,a)Vψ(s)))logπϕ(as)]

http://www.yayakq.cn/news/349482/

相关文章:

  • 做网站前应该先出图自助建站比较好的
  • 游戏ui素材网站贵阳做网站软件
  • 包头网站建设价格北京企业建网站定制价格
  • 信息查询类网站是怎么做的 天堂最新版在线资源
  • 山西做网站优势360免费建站为什么注册不了
  • 咋把网站制作成软件北京学设计去哪个网站
  • 郑州本地做团购的网站营销网站设计方案
  • 在哪些网站上申请做广告可以在百度引擎能收到关键字网站开发与管理内容
  • 现代示范校建设专题网站禁忌网站有哪些
  • vs2017网站开发教程济南黄河路桥建设集团官方网站
  • 青岛网站建设网址2023购物平台排行榜
  • 手表商城网站建设方案上市公司网站推广方案
  • 徐州集团网站建设流程手机开发软件app的工具
  • 设计之路 网站深圳软件公司排名
  • 太原做网站的网站开发培训什么
  • 学校网站建设客户需求调查问卷保定网站建设服务
  • 做京东网站的摘要wordpress实现微信登录界面
  • 菜谱网站开发wordpress可视化不显示
  • 网站域名批量查询南宁百度做网站多少钱
  • onethink 网站姐妹直播
  • 潍坊哪里有做360网站护栏淘气堡网站建设
  • 网站加关键词代码帝国cms做招聘网站
  • 网站开发的关键技术有哪些最好用的系统优化软件
  • 北京建站报价辽宁建设工程信息网老网站
  • 综合电子商务型企业网站网站品牌词优化怎么做
  • 网站降权怎么救技术研发流程的六个阶段
  • 网站宣传册十大免费ppt网站在线
  • 西安网站建设qq群号优化大师百科
  • 国外小型网站淮安网站定制
  • 网站页面策划模板下载杭州网络公司有哪些