当前位置: 首页 > news >正文

免费公司主页网站wordpress 传媒主题

免费公司主页网站,wordpress 传媒主题,安徽常青建设集团网站,站群文献阅读:LIMA: Less Is More for Alignment 1. 内容简介2. 实验设计 1. 整体实验设计2. 数据准备3. 模型准备4. metrics设计 3. 实验结果 1. 基础实验2. 消解实验3. 多轮对话 4. 结论 & 思考 文献链接:https://arxiv.org/abs/2305.11206 1. 内容简…
  • 文献阅读:LIMA: Less Is More for Alignment
    • 1. 内容简介
    • 2. 实验设计
      • 1. 整体实验设计
      • 2. 数据准备
      • 3. 模型准备
      • 4. metrics设计
    • 3. 实验结果
      • 1. 基础实验
      • 2. 消解实验
      • 3. 多轮对话
    • 4. 结论 & 思考
  • 文献链接:https://arxiv.org/abs/2305.11206

1. 内容简介

这篇文章是Meta在今年5月发的一篇文章,算是对LLM进行的一个黑盒分析吧。核心来说,这篇文章就是想要探究一下为什么LLM能够拥有如此强大的能力。

众所周知,自打从BERT开始,NLP大模型的范式就是大语料预训练加小数据集finetune。虽然GPT3短暂的抛弃了finetune而倡导直接的zero-shot learning,但是从FLAN开始,后期的InstructGPT,ChatGPT以及现今还没有公开技术细节的GPT4,无一不是走的两阶段训练:第一阶段进行大数据上的预训练,第二阶段做instruct learning或者RLHF。

但是,具体到两个阶段具体都产生了多大的贡献,事实上还算是一个黑盒,尽管直觉上我们都知道,真正产生核心作用的必然是大数据的预训练过程,不过后续的finetune过程到底可以产生多大的影响却不是很确定,文中就是对这个点进行了细致地考察,然后初步得到结果如下:

  • LLM的核心还是在于预训练,后续只需要用少量的高质量标注数据进行LLM的finetune就能够获得堪比SOTA的模型效果。

下面,我们来具体看一下文章的细节。

2. 实验设计

1. 整体实验设计

首先,我们来看一下文中的实验整体设计。

由于文中要考察的是finetune对模型整体效果的影响,因此文中整体的实验设计思路就是减小finetune数据集,用一个精选的小数据集进行模型的finetune,即文中的LIMA模型,然后和现有的一些常用的大模型进行效果比较,检查这个方法训练得到的模型能否大幅提升模型的效果,以及能够抗衡现有的常见大模型。

2. 数据准备

因此,这里对于finetune使用的数据的质量的要求就很高。文中也是用了一个章节来介绍数据的构造方式。

首先,我们给出文中的总的finetune数据分布如下:

在这里插入图片描述

可以看到:

  • 文中的finetune主要使用了1000条数据
  • 其中,这一千条数据当中,有200条是人工写作的,剩下的800条来自于网上的高质量数据集中的高分数据。

3. 模型准备

然后,关于模型的准备方面,文中主要是使用Meta自己的LLaMa 65B模型然后进行finetune。具体就是使用上述提到的1000条数据进行15个epoch的finetune。

而作为对照模型,文中主要使用了如下几个模型作为对照组:

  1. Alpaca 65B
  2. Davinci003
  3. Bard
  4. Claude
  5. GPT4

4. metrics设计

最后,关于实验的metrics设计方面,文中其实给的比较简单,基本就是300个样本交给标注员进行side by side比较。

除此之外,考虑到人工标注的不稳定性,文中还使用GPT4来进行side by side比较判断,从而增加结论的可靠性。

3. 实验结果

下面,我们来看一下文中的具体实验结果。

1. 基础实验

我们首先给出基础的实验结果如下:

在这里插入图片描述

可以看到:

  • LIMA模型击败了Alpaca 65B以及Davinci003模型
  • 虽然LIMA模型没有击败BARD模型,但是有58%(人工标注)和53%(GPT4标注)的概率可以生成不差于BARD模型的结果
  • 模型效果逊于Claude模型以及GPT4模型

而除了考察LIMA模型和其他模型的比较之外,文中还考察了一下LIMA自身回答的好坏,抽样50个样本之后,人工分析其效果如下:

在这里插入图片描述

可以看到:

  • 只有12%的样本没有通过测试,而获得优秀评价的样本占比达到了50%。

最后,关于safety问题,LIMA通过了80%的safety测试,但是依然会出现差错,尤其当文本描述并不直接的时候。

下面,我们给出一些LIMA的具体case如下:

在这里插入图片描述

2. 消解实验

然后,文中还做了一些消解实验,研究了一下LIMA为何使用如此小量的数据就能获得如此好的效果。

具体而言,文中做了下面三个维度的消解实验:

  1. 标注数据的prompt的diversity
  2. 标注数据的质量
  3. 标注数据的数量

给出文中的实验结果如下:

在这里插入图片描述

可以看到:

  • prompt的diversity以及数据本身的质量会显著影响模型的效果;
  • 相对的,标注数据的数量方面却没有表现出明显的变化,从2k到32k的数据,模型效果都相差无几。

3. 多轮对话

最后,文中还考察了多轮对话当中LIMA的效果。

由于前期的实验当中并没有涉及多轮对话的训练语料,所以这里新增了30条多轮对话的数据进行模型训练,然后考察finetune前后在10个测试集上的测试结果如下:

在这里插入图片描述

可以看到:

  • 经过少量多轮对话进行finetune之后,模型在多轮对话上的表现明显提升。

下面是文中给出的一个具体的case展示:

在这里插入图片描述

4. 结论 & 思考

综上,我们可以看到:

  • 对于LLM而言,其所有的知识基本上都是在预训练阶段就已经完成了,finetune阶段的作用更多的是导出LLM在特定方向上的能力,而非是增加其知识。
  • 因此,对于LLM的finetune而言,数据质量的影响远高于数据量的影响,少量高质量的数据就足以令模型在特定领域发挥出足够优秀的效果。
  • 不过,数据量少的代价也就是效果的不稳定,这一点在文中的讨论部分也有提及,少量数据虽然可以优化对应任务上的效果,但是会弱化模型的泛化能力。

Anyway,这些讨论的前提都是LLM可以载入并且进行finetune,这一点可能就劝退大部分人了,因此这篇文章可能也就是看看了,围观一下大佬们的实验结论就是了……

http://www.yayakq.cn/news/206819/

相关文章:

  • 怎么增加网站的权重贵港有网站建设的公司吗
  • 自己可以做网站生意好做吗考试类网站如何做
  • 响应式网站后台动漫做暧视频网站
  • 分销网站制作条件wordpress 主题自定义
  • 襄阳做网站的山东饰品行业网站开发
  • 有没有什么网站免费做名片网络维护公司名字
  • 印刷厂网站建设卡片式wordpress模板
  • 房产销售网站设计网页设计模板素材库
  • 建站平台绑定域名房管局网上查询系统
  • 免费的企业建站cmsWordPress实现网址导航
  • 福州城市建设规划网站网站建设能赚钱吗
  • 部署一个网站要做哪些工作营销网站建设推广
  • 西安网站优化排名推广wordpress模板h
  • 如何做原创漫画网站什么值得买 网站开发
  • 做房产销售可以在哪些网站上找客户wordpress错误怎么解决
  • 做直播教程的网站东营今天的消息
  • 北京中交建设公司网站怎么把网站排名到百度前三名
  • 网站做定制还是固定模板北京互联网公司前10强有哪些
  • 建设免费网站北京建设工程继续教育网站
  • cms做视频网站山海关建设局网站
  • 广西住房和城乡建设厅官方网站怎么做公众号网站吗
  • 沈阳企业网站怎样制作网上宣传广告怎么做
  • 做网站办什么营业执照成品网站和模板建站
  • 长春自主建站模板深圳的装修公司排名
  • 天元建设集团有限公司施工方案镇江seo方案
  • 亦庄开发区建设局网站网站建设中html网页
  • 如何微信做演讲视频网站山东手机网站建设
  • 达内网站建设什么是网站的入口
  • 营销型企业网站的类型用qt做网站可以吗
  • 交易所开发深圳网站制作网站在手机上内页图不显示