当前位置: 首页 > news >正文

专业公司网站设计企业龙岩网红桥

专业公司网站设计企业,龙岩网红桥,个人网页设计思路流程内容,wordpress阿里百秀总共从四方面来进行比较。 第一个方面,高层次方法(自监督的预训练方法)对比,总共三种方式。 语言模型式,就是 GPT-2 那种方式,从左到右预测;BERT-style 式,就是像 BERT 一样将一部…

 

总共从四方面来进行比较。

第一个方面,高层次方法(自监督的预训练方法)对比,总共三种方式。

  1. 语言模型式,就是 GPT-2 那种方式,从左到右预测;
  2. BERT-style 式,就是像 BERT 一样将一部分给破坏掉,然后还原出来;
  3. Deshuffling (顺序还原)式,就是将文本打乱,然后还原出来。

image

其中发现 Bert-style 最好,进入下一轮。

第二方面,对文本一部分进行破坏时的策略,也分三种方法。

  1. Mask 法,如现在大多模型的做法,将被破坏 token 换成特殊符如 [M];
  2. replace span(小段替换)法,可以把它当作是把上面 Mask 法中相邻 [M] 都合成了一个特殊符,每一小段替换一个特殊符,提高计算效率;
  3. Drop 法,没有替换操作,直接随机丢弃一些字符。

image

此轮获胜的是 Replace Span 法,类似做法如 SpanBERT 也证明了有效性。

当当当,进入下一轮。

第三方面,到底该对文本百分之多少进行破坏呢,挑了 4 个值,10%,15%,25%,50%,最后发现 BERT 的 15% 就很 ok了。这时不得不感叹 BERT 作者 Devlin 这个技术老司机直觉的厉害。

接着进入更细节,第四方面,因为 Replace Span 需要决定对大概多长的小段进行破坏,于是对不同长度进行探索,2,3,5,10 这四个值,最后发现 3 结果最好。

终于获得了完整的 T5 模型,还有它的训练方法。

  • Transformer Encoder-Decoder 模型;
  • BERT-style 式的破坏方法;
  • Replace Span 的破坏策略;
  • 15 %的破坏比;
  • 3 的破坏时小段长度。

到此基本上 T5 预训练就大致说完了,之后是些细碎探索。

Datasets

接着作者们拿着 C4 数据集做了各种实验,比如说从里面分出各种类型的数据集,单独训练 T5 模型,之后看在下游任务的表现,发现一些情况领域内的预训练数据可以增强下游任务(想当然的)。而 C4 完整数据集因为数据太多太杂,可能反而不如这种领域内较少数据集。

还有从 C4 中抽出不同量数据做实验,发现数据少时,模型会记住数据所以之后表现会比较差(这个也是想当然)。

Training:Multi-Task Learning

作者们之后又针对 MTDNN 给 T5 做了一系列类似训练,在一堆监督和非监督数据上进行预训练。

结果发现,只要混合训练比例调得OK,和前面说的非监督预训练性能差不多

Scaling:bigger is better?

接着又做了当放大模型某方面规模的相关实验,分别是增大模型,增大数据,还有在一定资源限制下的集成。

结论是,当这些因素放大时对性能都有提高,但其中大模型是最必要的

Models

最后就是结合上面所有实验结果,训练了不同规模几个模型,由小到大:

  • Small,Encoder 和 Decoder 都只有 6 层,隐维度 512,8 头;
  • Base,相当于 Encoder 和 Decoder 都用 BERT-base;
  • Large,Encoder 和 Decoder 都用 BERT-large 设置,除了层数只用 12 层;
  • 3B(Billion)和11B,层数都用 24 层,不同的是其中头数量和前向层的维度。

11B 的模型最后在 GLUE,SuperGLUE,SQuAD,还有 CNN/DM 上取得了 SOTA,而 WMT 则没有。看了性能表之后,我猜想之所以会有 3B 和 11B 模型出现,主要是为了刷榜。看表就能发现

比如说 GLUE,到 3B 时效果还并不是 SOTA,大概和 RoBERTa 评分差不多都是 88.5,而把模型加到 11B 才打破 ALBERT 的记录。然后其他实验结果也都差不多,3B 时还都不是 SOTA,而是靠 11B 硬拉上去的。除了 WMT 翻译任务,可能感觉差距太大,要拿 SOTA 代价过大,所以就没有再往上提。根据这几个模型的对比,可以发现即使是容量提到 11B,性能提升的间隔还是没有变缓因此我认为再往上加容量还是有提升空间

 

 

 

 

http://www.yayakq.cn/news/415742/

相关文章:

  • 俄罗斯门户网站有哪些东明网站建设推广
  • 长沙建网站企业seo网站怎么搭建
  • 西部网站助手全渠道营销管理平台
  • h5建设网站九亿app开发公司
  • 中英文网站建设需要懂英语吗免费开源网站建设系统
  • 什么网站专门做境外当地游公司手机网站模板免费下载
  • 山东网站开发网络公司学院网站建设申请报告
  • 海南网站建设多少钱网站空间怎么选
  • 企业建设网站企业做网站维护怎么找客户
  • 网站开发职责与要求天辰建设信息网
  • 网站备案查询站长工具做网站怎么赚钱
  • 刚做的网站为什么百度搜不到哈尔滨建设局官网
  • 高端企业网站设计公司金顺广州外贸网站建设
  • 为什么中国人都跑去泰国做网站网站旅游网站源码下载
  • 专业网站设计公司wordpress文章自动中文
  • 网站建设需求分析酒类无锡网站制作多少钱
  • 快速排名怎么做哈尔滨网站关键词优化
  • 外国教程网站有哪些南宁网页制作培训
  • 如何建立一个网站根目录怎样学好网站开发
  • 做网站赚钱交税能看网站的浏览器
  • 巴中区建设局网站wordpress 注册码
  • 湛江建设厅网站绵阳辉煌网站建设
  • 优质做网站公司网站开发确认表
  • 做那事的网站手机网页微信
  • 中国建设银行网站是什么谁能给做网站
  • 免费发布广告的网站新房装修图片
  • 广州市建设企业网站平台国家免费24小时律师咨询
  • 推荐小蚁人网站建设安徽新网讯科技发展有限公司
  • jquery 选择 网站wordpress右侧悬浮搜索菜单
  • 东莞网站推广技巧天津网站建设 熊掌号