当前位置: 首页 > news >正文

三网站合一做旅游销售网站平台ppt

三网站合一,做旅游销售网站平台ppt,网站建设促销活动,网络软件开发作者:皮皮雷 来源:投稿 编辑:学姐 论文题目 How Effective is Task-Agnostic Data Augmentation for Pretrained Transformers? 论文作者 S. Longpre, Y. Wang, and C. DuBois 论文发表于 2020 EMNLP findings 摘要 任务无关的数据增广…

作者:皮皮雷 来源:投稿
编辑:学姐

论文题目

How Effective is Task-Agnostic Data Augmentation for Pretrained Transformers?

论文作者

S. Longpre, Y. Wang, and C. DuBois

论文发表于

2020 EMNLP findings

摘要

任务无关的数据增广(DA)在NLP中运用广泛,尤其是在数据稀少的情况下、或者在下游任务中接非预训练模型(如LSTM,CNN)效果显著。有时候,下游任务接预训练语言模型(如BERT)也会有所提升。

论文提出的问题是:

当DA运用在预训练语言模型上,到底有多少效果?

论文使用两种常规的数据增广方法:

Easy Data Augmentation (EDA) (Wei and Zou, 2019) 和回译(Sennrich et al., 2015),在6个数据集、5种分类任务(情感分类SST2,RT、主观性SUBJ、问题类型TREC、句子相似STS-B、推理MNLI)、3个预训练语言模型(BERT, XL-NET, and ROBERTA)上比较DA的效果。

结果发现,尽管前人实验证实DA方法在非预训练语言模型上效果显著,但是不适用于预训练语言模型,哪怕是在数据稀少的情况下。

结论

在用PLM做文本分类时,增广手段不能起到提升作用。推测是因为PLM在预训练过程中已经拥有较多的语言知识(无需再次增强)。

数据集

·情感分类 SST2, RT·主观性 SUBJ·问题分类 TREC·句子相似 STS-B·推理 MNLI

用于测试的数据: 在这些数据集的测试集中随机抽取1000条。

训练数据大小: N ∈ {500, 1000, 2000, 3000, Full},以模拟在数据稀疏情况下的表现

数据增广方法

1.Back Translation (回译) : 英语 → 德语

英语1句的德语翻译,再翻回6句不同的英语,取6句话中与原文编辑距离最长的。

目的:最大限度增加语言的丰富程度(linguistic variety)

2.Easy Data Augmentation (EDA) 包括同义词替换、随机交换词语顺序、随机插入和删除词语

变量:数据增广的总量,设置参数τ ∈ {0.5, 1, 1.5, 2}. N ×τ 是增广的数据量。

模型

研究者测试了3种预训练语言模型在数据增广下的表现。

BERT-BASE

XLNET-BASE

ROBERTA-BASE

实验

先调参:对于每一种数据增广策略(不增广、回译、EDA)分别调参,采用30次随机搜索方法调参,确保模型发挥较好的效果。

实验数据发现数据增广的方法收效甚微。研究者接下来讨论产生这种情况的原因。

讨论:为什么数据增广的策略没有效果?

现象1:数据增广对BERT的增益比另外两个模型大。而且BERT的预训练数据量相对了另外两个模型小。所以推测预训练过程达到了和数据增广相似的效果。

研究者建议:数据增广可以增加任务相关语料的语言学丰富度,尤其是当预训练不足够的时候。

现象2:RT情感分类数据集中,少见的、别出心裁的表达构成了很多难例(如“wishy-washy”),模型较难归纳出这些词所属的情感类别。在这些难例上,预训练模型做对了,而LSTM没做对。

这些结果表明数据增广和预训练都提高了模型处理复杂语言结构、歧义词和标签类别中未出现的词语的能力。

评价

在竞赛中,我们常常看到数据增广的方法能够提分,而且提分不少,因此数据增广被当做一个有口皆碑的刷分利器。而这篇Apple公司的论文正是关注数据增广在预训练模型上的表现,做了一系列的实验,结果却和我们以前的认知大相径庭。

这是为什么呢?在读的过程中我也意识到了一些问题。比如,分类效果没有提升,是因为总数据量的增加导致的?还是数据增广方法的应用导致的?如果把这个变量分离出来做比较,可能会更有说服力一些。

而且,在我们的经验中,数据增广方法在一些数据集上有神奇的效果、在另一些上没有,这也是符合“no free lunch”定律的:天下没有一种普适的模型和算法能一下找到所有问题的最优解。

不过这篇论文的优点在于提出的问题非常基础、有建设性。相信里面有更多的东西有待挖掘,比如,数据增广方法能够奏效的数据集,它们本身有什么特点?而数据增广收效甚微的数据集又有什么特点?这些都是这篇文章引出的问题和思考。

论文链接:

https://arxiv.org/abs/2010.01764

关注下方《学姐带你玩AI》🚀🚀🚀

回复“ACL”领取NLP顶会600多篇经典论文

码字不易,欢迎大家点赞评论收藏!

http://www.yayakq.cn/news/636740/

相关文章:

  • 湖南建设人力资源官方网站宁波建筑信息平台
  • 建设一个能看视频的网站转发 wordpress 奖励
  • 锡盟建设工程造价信息网站专业网站建设策划
  • 丰功网站建设重庆建筑行业认证培训网
  • 网站页面分析作业三亚学做网站培训
  • 株洲高端网站建设昆明网络推广昆明网站建设昆明昆明
  • 营销型网站怎么用微信做网站
  • 钓鱼网站在线下载模板网站可以做备案吗
  • 做网站需要下载哪些软件电子商务网站开发需求文档
  • app要有网站做基础知识网页设计图片对齐方式
  • p2p网站开发文档删除网站留言板功能
  • 网网站建设站建设免费网站制作平台推荐
  • 中国建设报社网站ui培训机构设计
  • o2o网站建设流程收录网站的平台有哪些
  • 公众号免费素材网站南宁做网站设计方案
  • 外贸网站faqwordpress数据库安装教程
  • 网站技术维护费昆山自适应网站建设
  • 网站手机端页面怎么做的seo短视频网页入口引流下载
  • wordpress局部内容seo网络优化
  • 做网站用什么软件初二泰州免费网站建站模板
  • 长沙网站建设市场低价北京做网站价格
  • 企业网站需要什么功能网站怎么做分享链接
  • 网站制作公司前景网络运营是干什么的
  • 西安网站制作服务商开网店货源从哪里找最好
  • 巴青网站制作用jsp和mysql做网站
  • 深圳坪山网站建设公司用jsp做学校网站
  • 网站广告赚钱吗微网站建设微网站建设
  • 扁平化手机网站wordpress稳定吗
  • 用书籍上的文章做网站更新iis新建网站
  • 网站建设公司dyfwzx专门做dm单的网站