当前位置: 首页 > news >正文

做it的在哪个网站找工作温州网站制作哪家好

做it的在哪个网站找工作,温州网站制作哪家好,徐州做网站建设的公司,如何用自己电脑做网站服务器写在前面 检索增强能够有效缓解大模型存在幻觉和知识时效性不足的问题,RAG通常包括文本切分、向量化入库、检索召回和答案生成等基本步骤。近期组里正在探索如何对RAG完整链路进行评估,辅助阶段性优化工作。上周先对评估综述进行了初步的扫描&#xff0…

写在前面

检索增强能够有效缓解大模型存在幻觉和知识时效性不足的问题,RAG通常包括文本切分、向量化入库、检索召回和答案生成等基本步骤。近期组里正在探索如何对RAG完整链路进行评估,辅助阶段性优化工作。上周先对评估综述进行了初步的扫描,本篇分享其中一份评估benchmark,RGB。

论文:https://arxiv.org/abs/2309.01431
代码和数据:https://github.com/chen700564/RGB

RAG评估benchmark-RGB

      • 写在前面
      • 1. 核心思想
      • 2. 评估维度和方式
      • 3. 评估数据构建
      • 4. 评估指标
      • 5. 实验和结论
        • 设置
        • 5.1 噪声鲁棒性
        • 5.2 拒绝能力
        • 5.3 信息整合能力
        • 5.4 反事实鲁棒性
      • 6. 总结


 

1. 核心思想

  • 检索增强生成(RAG)是有效的消除大模型幻觉的方法,但已有工作缺乏RAG对不同大模型影响的评估
  • 因此构建检索增强生成的基准(Benchmark)RGB,并设计4个维度的评估,包括(1)噪声鲁棒性(2)拒绝能力(3)信息整合能力(4)反事实鲁棒性
     

2. 评估维度和方式


 

3. 评估数据构建

  • 主要包括4个步骤:

 
  • 具体如下:

 

最终构建数据量600个基本问题+200个扩展的整合问题+200个反事实问题;300中文、300英文
 

4. 评估指标

评估的是大模型的响应,特定的响应(拒绝、发现错误)是写在prompt里的

  • 准确率:评估噪声鲁棒性和信息整合能力,与答案精确匹配
  • 拒绝比例:评估拒绝能力,根据生成的响应含有"I can not answer the question because of the insufficient information in documents."
  • 错误检测比例:评估反事实鲁棒性,根据生成的响应"There are factual errors in the provided documents.
  • 错误矫正比例:评估识别到错误信息后是否可以生成正确响应
     

5. 实验和结论

设置
  • 每个问题设置5个候选文档(300tokens/个),噪声文档比例[0,0.8]随机
  • 6个LLM:ChatGPT (OpenAI 2022) ChatGLM-6B (THUDM 2023a), ChatGLM2-6B (THUDM2023b), Vicuna-7b-v1.3 (Chiang et al. 2023), Qwen-7BChat(QwenLM 2023), BELLE-7B-2M (Yunjie Ji 2023)
  • prompt:

 
5.1 噪声鲁棒性

当输入给大模型的候选文档中包含1到多篇噪声文档(与问题相关但不能回答)时,评估大模型抵抗噪声干扰的能力


 

随着含噪声文档的增加,答案的准确率呈下降趋势,那么噪声影响下错误产生的具体原因,作者分析包括答案出现的距离远、证据不明确、概念混淆:


 
5.2 拒绝能力

当候选文档都不能回答问题时,大模型最高的拒绝比例仅有45%→容易被误导


 
5.3 信息整合能力

当答案需要从多篇候选文档中抽取信息进行回复时,评估大模型的信息整合能力;
 

实验发现生成答复时存在的问题:

  • 使用一个子问题的正确答案回答所有子问题
  • 忽略子问题,只回答其中一个
  • 子问题和候选文档匹配错误

原因:大模型对复杂问题的理解能力有限,妨碍了有效利用来自不同子问题的信息的能力


 
5.4 反事实鲁棒性

当输入给大模型的文档包含错误信息时,评估大模型的拒绝能力


 
  • Acc,是没有提供候选文档,请LLM自己回答的准确率
  • Acc_doc,是增加含有错误信息的候选文档后的准确率;

增加错误信息后,大模型准确率迅速下降,而且其错误和纠正错误的比例很低
 

6. 总结

  • 这篇工作的测评是通过生成的答案来评估整体能力的,不侧重RAG整个pipeline中某个步骤的提升给整体系统带来的效果;由于其数据来源于网络,所以除了常规的评估抗噪声、拒绝回答和整合能力之外,还考虑了识别错误信息的能力;
  • RAG包含多个步骤,文档的切分粒度、向量化模型的选择、prompt的写法以及大模型本身的能力都会影响最终答案的生成,因此理想的评估应该是控制变量的中间环节评估+整个系统评估;
  • 具体工作中,我们也发现了RAG的痛点在于,当召回的文档与问题不那么相关、甚至文档包含干扰信息时,chatgpt3.5容易被错误的信息指引生成错误的答案;
  • 还在提升的点:让大模型更加准确、快速地理解if-else的能力。
http://www.yayakq.cn/news/990814/

相关文章:

  • 网络app制作网站有哪些内容平江县网站建设
  • pc网站如何转为手机版青海网站建设推广
  • 建电影网站程序wordpress 打开非常慢
  • 新手怎么样学做网站免费自己制作网站方法
  • 网站域名解析后多久能生效google属于搜索引擎类网站.
  • 微信定制开发 网站开发网站建设qq群
  • 做庭院的网站广西住房和城乡建设厅官网培训
  • 我看别人做系统就直接网站下载文件广西做网站的公司有哪些
  • 域名解析 网站建设企业官网建站
  • 商商业网站建设wordpress自动清缓存
  • 现在什么网站做推广比较好wordpress模板目录结构
  • 仁怀哪儿做网站安装wordpress错误
  • 阳泉做网站公司外贸网站营销方案
  • 苏州网络推广网站建设金蝶软件做账全过程
  • 仿做静态网站多少钱如何进行线上推广
  • 网站怎么做外链知乎良庆网站建设
  • 保定网站建设技术支持动感技术网站建设
  • 合肥优秀网站建设发稿系统
  • 网站维护的具体问题wordpress伪静态cdn配置
  • 上海哪家网站建设好临安城市建设公司网站
  • 河北省城乡和住房建设厅网站用于做分析图 的地图网站
  • wordpress建站比较wordpress加一个字段
  • 服装模板网站大连 响应式网站
  • 商城网站建设都需要多少钱西宁做网站君博美评
  • 广州南沙网站建设公司wordpress 变成中文
  • 番禺大石网站建设win7系统做网站服务器系统
  • 代练中介网站有得做吗小型建筑公司有哪些
  • 学做美食饮品网站中建八局第一建设公司网站
  • 国内产品网站1688最新领导班子7人名单
  • 网站网站建设的原则有哪些成立公司需要哪些资料