当前位置: 首页 > news >正文

全自动三次元网站建设重庆快速排名

全自动三次元网站建设,重庆快速排名,沈阳网络公司官网,wordpress标签描述代码苏州大学从头训练的双语非对称Encoder-Decoder模型OpenBA已正式开源! 主要亮点包括: 亮点一:此模型为中文开源社区贡献了一个有代表性的编码器解码器大语言模型,其训练过程(包括数据收集与清洗、模型构建与训练&#x…

e8ddda1de46684d9fffd05473602db6d.png

苏州大学从头训练的双语非对称Encoder-Decoder模型OpenBA已正式开源!

主要亮点包括:

  • 亮点一:此模型为中文开源社区贡献了一个有代表性的编码器解码器大语言模型,其训练过程(包括数据收集与清洗、模型构建与训练)已完全开源。

  • 亮点二:数据方面,OpenBA所使用的数据均公开可获取,模型的能力产生更加透明。

  • 亮点三:针对中文instruction能力,我们基于开源的标注数据构建了大规模中文Flan数据集,并完全开放了其构建方法。

  • 亮点四:仅凭380B token的训练量,在多种中英下游任务上超越了许多同参数量、更大数据训练的模型。

技术报告与项目地址

技术报告:
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch
https://arxiv.org/abs/2309.10706

模型:
https://huggingface.co/OpenBA

项目:
https://github.com/OpenNLG/OpenBA.git

论文概述

语言大模型的发展离不开开源社区的贡献。在中文开源领域,虽有GLM,Baichuan,Moss,BatGPT之类的优秀工作,但仍存在以下空白:

  1. 主流开源大语言模型主要基于decoder-only架构或其变种,encoder-decoder架构仍待研究。

  2. 许多中文开源指令数据集是由ChatGPT生成或从英文翻译而来,存在版权和质量问题。

为填补这些空白,该工作:

  1. 采用了非对称的编码器-解码器架构(浅编码器,深解码器),融入UL2多任务训练、长度适应训练和双语Flan训练三个阶段。

  2. 构建了包括五千万条指令的中文Flan数据集,涵盖了44个任务,同时完全开放收集和构建方法。

预训练数据构成

OpenBA的数据构成为190B tokens 英文数据,190B tokens 中文数据和20B tokens 代码数据。其中,英文数据和代码数据从The Pile数据集中采样而来,而中文数据集主要来源于Common Crawl的子集和FudanNLPLAB的CBook-150K数据集。其具体的预训数据构成如下图所示:

b326572070b5fc2ec564ab9571b4244a.png

双语Flan数据收集

我们选用了The Flan Collection作为英文Flan数据集,而中文Flan数据集则选用了涵盖了44个任务五千万条指令数据,同时完全开放了其构建方法。下面给出了整个双语Flan数据集的分布和具体的中文Flan数据集构成。

afd63416dcade063c85ccf12f7781100.png1b17ab1bfb7834ea875f56d84c50e799.png

非对称Encoder-Decoder模型结构

在模型结构的选择上,OpenBA尝试了三种设置:(1) 更深的decoder,(2) 更深的encoder,(3) 相同层数的encoder和decoder。

论文认为现有的大语言模型主要为decoder-only结构,以生成能力见长,而decoder的层数更深有助于模型生成能力的提升。

针这一点,本文做了一个验证试验,用UL2的训练目标训练上述三种设置的模型,并观察模型在三种denoising验证集上的效果,其中S-Denoising task上的能力可以看作是对模型生成能力的衡量。

2ebc0bfaf59118eb6ce6ca2613083be0.png

实验结论表明:更深的decoder设置在S-Denoising任务上的能力要更优,这也证实了更深decoder模型在生成任务上的有效性。

融合UL2的三阶段预训练

eea4e09cb86f837f0e56a836a4c54cad.png

如上图所示,OpenBA经历了三个阶段的预训练,分别是:

  • UL2 预训练 此阶段主要涉及三个任务:少量随机掩码的R-Denosing,大量随机掩码的X-Denosing,以及序列连续掩码的S-Denosing。

  • 长度适应训练: 在这个阶段,OpenBA将570/380的输入输出最大长度延伸至1024/1024,并仅专注于续写任务。这一步的目的是为了让模型能适应对上下文长度要求更高的下游任务,且进一步增强其生成能力。

  • 双语Flan训练阶段: 在这个阶段,OpenBA在双语Flan数据集上进行了微调,赋予模型更强的遵循指令能力。

实验结果

OpenBA在多个常用中英文Benchmark(MMLU,CMMLU,C-Eval,BBH,SuperGLUE等)以及不同设置下(包括Zero-shot, Few-shot, Held-in, Hold-out)进行了评测,覆盖了常识推理、自然语言生成和自然语言理解等任务。

OpenBA在不同任务与设置下均取得了有竞争力的效果。以下为OpenBA在BELEBELE(自然语言理解任务),ROC Story(自然语言生成任务),CMMLU(逻辑推理任务)的部分评测结果。

6631541b5f29eee867a87d775f34f348.png
OpenBA在BELEBELE(阅读理解)上的自动指标结果

OpenBA在ROC Story(故事生成)上的人工评测结果:

f1f8a7379aa818319eada7bfed4072f4.png
连贯性评测
47bd26012c3b9d99ad29a914188e1d68.png
一致性评测

OpenBA在CMMLU(中文逻辑推理)上的自动指标结果:522286ec5fc7ecfc7fedc62066890c72.png

小结

尽管OpenBA仅使用了380B tokens,但它在众多benchmarks上均获得了出色的性能,甚至超过了消耗更多数据的模型。苏州大学已开源OpenBA的各阶段checkpoint以及中文Flan数据集的构建方法,以便于广大研究者使用。

OpenBA下一阶段的工作将在通用聊天模型、调用工具模型以及去除偏见与对齐方面进一步深化研究(具体请参考技术报告)。

如果您对OpenBA感兴趣,欢迎合作,一起为开源社区做出贡献。


进NLP群—>加入NLP交流群

http://www.yayakq.cn/news/799446/

相关文章:

  • 展览网站模板怎么下载wordpress内置的主题
  • 修改WordPress写文章的模板西安优化外
  • 一般的学校网站怎么做中信建设有限责任公司 乔锋 电话
  • 58同城网站建设深圳丽丽亚做网站不搭建本地环境
  • 网站服务器过期了设计一份包含网站建设范
  • 企业seo自助建站系统企业宣传片视频制作公司
  • 网站建设开发详细步骤流程图哪建设网站好
  • 个人网站制作说明呼市网站设计公司
  • 门户网站建设思维导图响应式设计的网站
  • 合作网站开发公司吴江区城乡建设管理局网站
  • 制作网站参考案例企业网站建设选择兴田德润
  • 行业网站设计alexa排名官网
  • 宁波正规品牌网站设计绿色食品网站开发步骤
  • 南沙网站建设wordpress如何开发手机版
  • 住房和城乡建设局部网站广州做餐饮的招聘网站
  • 做外贸要访问国外的网站怎么办做产品的淘宝客网站
  • 网站维护的方法陕西省网上注册公司流程
  • 模板网站会员黄埔网站开发
  • 除了做视频网站还能做什么网站android 解析 wordpress
  • 武进网站建设怎么样网商之窗高仿手表
  • 做网站好用的cms网站建设制作教程
  • 网站关键词整体方案公司备案证查询网站查询
  • 蒙城做网站的公司网站关键词用热门的还是冷门
  • 网站留言板模板网站建设后怎么
  • 昆明做公司网站centos怎么装WordPress
  • 合肥模板网站建设费用网站为什么要改版
  • 物流网站建设计划书app线上推广方式
  • 中国十大设计院廊坊seo建站
  • 云南省住房建设厅网站wordpress4.x版本
  • 网站503错误怎么解决脑叶公司手机版下载