当前位置: 首页 > news >正文

网站建设销售找客源网站栏目建设

网站建设销售找客源,网站栏目建设,文交所网站开发,资阳地网站seo1.BERT-wwm 1-1 Whole Word Masking Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。 原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时&#xff…

1.BERT-wwm

1-1 Whole Word Masking

        Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。 

        原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。 在Whole Word Masking (wwm)中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask。这缓解了在训练前 BERT 中屏蔽部分 Wordpiece 分词的缺点。

2.Chinese-BERT-wwm

2-1 中文BERT-WWM

        2019年哈工大和科大讯飞联合发表中文BERT-WWM模型的论文,使用中文文本对整个单词进行掩蔽,即屏蔽整个单词而不是屏蔽汉字。由于谷歌官方发布的BERT中,中文以字粒度进行切分,没有考虑到传统NLP中的中文分词。 Chinese-BERT-wwm将 Whole Word Mask的方法应用在了中文中,使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大LTP作为分词工具,即对组成同一个的汉字全部进行Mask。

2-2 样例

3.总结

        BERT-WWM对Bert的改进主要体现在mask的方式上,使用全词mask。

        其改进点如下:BERT-WWM不仅仅是连续mask实体词和短语,而是连续mask所有能组成中文词语的字。具体做法是,针对中文,如果一个完整的词的部分字被mask,则同属该词的其他部分也会被mask,即对组成同一个词的汉字全部进行Mask,即为全词Mask。

        这样做的目的是:预训练过程中,模型能够学习到词的语义信息,训练完成后字的embedding就具有了词的语义信息了,这对各类中文NLP任务都是友好的。

http://www.yayakq.cn/news/886350/

相关文章:

  • 推荐优秀的企业网站设计做网站外包公司有哪些
  • 天津河北做网站的公司排名网络工程师难学吗
  • 外贸做那种网站企业管理信息系统的功能
  • 企业做网站的费用如果做账关键词排名优化佛山售后
  • 网站推广的图片网站建设需要什么流程
  • 上海手机网站建设公司个人做网站seo
  • 公司网站开发合同 华律网不需要充值的传奇手游
  • 配资网站建设多少钱渭南seo公司
  • 乐清做网站公司哪家好网站中转页
  • 网站推广免费推广网站沈阳网络seo公司
  • 莱西做网站公司net mvc 仿wordpress
  • 网站后台管理系统页面网站续费有什么作用
  • 网站怎么做百度排名设计网站国外
  • 宝塔做网站443链接wordpress网站程序
  • 网站备案查询工信部官网百度推广怎么优化关键词的质量
  • 做任务 网站wordpress 页面编写
  • 网站开发需求文件自定义短网址生成器
  • 可以拔下来做的网站吗怎么做好营销网站开发
  • 企业管理培训课程游戏江门网站建设方案优化
  • 个人做网站需要多少钱网站的推广方案的内容有哪些
  • 河南省建设监理协会网站人才十长沙关键词快速排名
  • 建设网站需要的人才公司营销网站建设
  • 北京移动端网站优化定制网站建设与运营案例
  • 怎样拍照产品做网站类似 wordpress
  • 做网站为什么需要购买域名wordpress移动端编辑器
  • 珠海建网站python3.5 做网站
  • wap版网站建设方案深圳网站建设seo推广优化
  • 网站建设管理策划书免费做网站哪家好
  • 中国工业设计十佳公司单页面seo优化
  • 上海网站排名提升一台云服务器可以做几个网站