当前位置: 首页 > news >正文

做文献的ppt模板下载网站做网站 用什么兼容

做文献的ppt模板下载网站,做网站 用什么兼容,免费网站如何做宣传,wordpress主题英文改中文版arxiv: https://arxiv.org/abs/2305.14992 问题背景:当前LLM推理受到几个关键因素的限制: (1)LLM缺乏世界模型(一种人类就有的对环境的心理表征,可以模拟行动以及活动对外部世界状态的影响)去…

arxiv: https://arxiv.org/abs/2305.14992

问题背景:当前LLM推理受到几个关键因素的限制:

(1)LLM缺乏世界模型(一种人类就有的对环境的心理表征,可以模拟行动以及活动对外部世界状态的影响)去预测世界状态和模拟执行动作产生的长期结果影响,从而导致规划能力和执行动作能力不足。

(2)缺乏奖励机制来评估和引导推理走向理想状态。

(3)无法平衡探索(未访问过的节点)与利用(访问过的节点),从而无法有效地探索广阔的推理空间。

本文方法概述:提出RAP(Resoning via Planning)框架,让LLM能够以接近人类意识规划的方式进行推理。RAP通过世界模型增强LLM,并通过有指导准则的规划进行推理,让后续产生有高奖励值的推理路径。

本文方法框架:

语言模型作为世界模型

  • 用自然语言在prompt中定义状态和动作。
  • 根据定义的状态和动作,将推理过程描述为马尔可夫过程(MDP)。

奖励设计

  • 动作的log概率作为奖励。
  • 采样多次世界模型的答案,使用生成最多的答案比例作为置信度。根据当前状态下得到的置信度会作为奖励。
  • 让LLM自己去评估结果。(LLM识别推理错误,要比避免在生成中产生错误更容易)
  • 根据特定任务可以启发式的插入就爱你老公i函数。

采用蒙特卡洛树搜索进行规划

  • MCTS迭代式的构建了一颗搜索树,节点代表状态,边代表活动和在当前状态下应用动作生成下一个状态的过渡。
  • 选择
    使用上限置信界限(UCT)去选择节点,来平衡探索(未访问的节点)和利用(访问过的高价值的节点)
    在这里插入图片描述

其中N(s)是节点s在之前的迭代中被访问的次数,c(s,a)是状态s下进行动作a的子节点。之前访问的子节点越少(即该子节点的不确定性越高),方程中第二项就越高。权重w控制着探索和里用的平衡。当w为0时,退化为贪心搜索方式。当w不为0时,若某一条路径经常被选择, 会逐渐减小未来会产生的收益增益,让LLM对探索较少的路径进行探索。

  • 扩展
    当节点不为终端节点的时候,将根据叶结点的状态,使用LLM对d个可能的动作进行采样,然后使用LLM预测各自的下一个状态,从而产生新的子节点,直至达到叶子结点为止。
  • 反向传播
    当达到叶结点时候进行反向传播。
  • 构架完成进行推理
    达到预订MCTS的迭代次数,则终止算法并从构建的树中选择最终的推理轨迹进行评估。选择方式有两种;1)从根节点开始,每次选择Q值最高的动作,直到达到终端叶子结点。2)从生成高奖励的迭代中选择路径,或者选择访问次数最多的叶结点。本文在实践中发现方法二效果更好。
  • 路径融合
    RAP可以从不同的MCTS迭代中产生多个轨迹和答案,这些轨迹和答案将聚合形成最终的答案。但是,像规划生成、逻辑推理的问题需要完整的推理轨迹作为输出,这一类不会被使用路径融合。

实验情况

  • 实验场景:规划生成、数学推理问题、逻辑推理
  • 实验设置:基座模型Llama-33B、temperature=0.8
  • 基线方法:COT、Least-to-Most、Self-Consistency(SC)
  • 实验效果:
    • 规划生成

      • 采用Blocksworld数据集,该数据集主要用于让Agent移动不同颜色的方块,达到目标要求。
        在这里插入图片描述
        在这里插入图片描述
    • 数学推理

      • 采用GSM8K数据集
        在这里插入图片描述
    • 逻辑推理

      • 采用PrOntoQA数据集,提供一组事实和逻辑规则,模型需要基于事实应用逻辑规则,来验证事实的真假。

在这里插入图片描述

http://www.yayakq.cn/news/278516/

相关文章:

  • 课程网站开发与设计本科自考第二专业
  • 本科软件开发专业网站首页排名seo搜索优化
  • 中国移动门户网站做系统前的浏览网站能找回吗
  • 国家工程建设标准化网站短网址缩短
  • 第一次做网站没头绪ckeditor wordpress 无法预览文章
  • 做的很好的网站外贸seo软件
  • 郑州网站建设品牌长春网络公司
  • 免费的手机网站模板自己怎么健网站视频下载
  • 如何推广自己的外贸网站网络推广的优势
  • 淘宝客怎么建网站在东莞找工作上哪个网站
  • 机电网站建设个人网站备案后可以随意建站吗
  • 娄底市建设网站wordpress页脚菜单横排
  • 网站推广的企业广州网站开发
  • 微信手机网站搭建自己开发微网站
  • 电商购物网站开发需求分析域名seo查询
  • 汕头建设网站微信公众号设计与布局
  • 十大接单网站网站域名备案主机名
  • 盛世阳光-网站建设wordpress 英文版
  • 商务互联 网站全网营销和网站建设
  • 校园二手市场网站建设方案住房和城乡建设部网站主页
  • 石家庄商城网站建设网络广告电话
  • 做网站需要编码吗浙江建设局网站首页
  • 一级a做爰片免费视频网站网站地图的使用
  • 莱芜网站建设价格重写路由 wordpress
  • 佛山网站定制开发小鱼儿网站做啥用的
  • 网站开发培训费多少wordpress如何用
  • 设计师工作内容aso关键词排名优化是什么
  • 网站改版需要多久域名购买网站有哪些
  • ui作品集 网站怎么做广州seo怎么做
  • 教育培训门户网站模板下载做网站创意