当前位置: 首页 > news >正文

做网站哪家公司最好昌大建设怎么样

做网站哪家公司最好,昌大建设怎么样,4399自己做游戏网站,百度收录越来越难了【bug】Transformer输出张量的值全部相同?!现象原因解决现象 输入经过TransformerEncoderLayer之后,基本所有输出都相同了。 核心代码如下, from torch.nn import TransformerEncoderLayer self.trans TransformerEncoderLayer…

【bug】Transformer输出张量的值全部相同?!

  • 现象
  • 原因
  • 解决

现象

输入经过TransformerEncoderLayer之后,基本所有输出都相同了。
核心代码如下,

from torch.nn import TransformerEncoderLayer
self.trans = TransformerEncoderLayer(d_model=2,nhead=2,batch_first=True,norm_first=True)
...
x = torch.randn(2, 8, 2)
print("x before transformer", x, x.shape)
x = self.trans(x)		# Transformer Encoder Layers
print("x after transformer", x, x.shape)

输出:

x before transformer tensor([[[ 0.2244, -1.9497],[ 0.4710, -0.7532],[-1.4016,  0.5266],[-1.1386, -2.5170],[-0.0733,  0.0240],[-0.9647, -0.9760],[ 2.4195, -0.0135],[-0.3929,  1.2231]],[[ 0.1451, -1.2050],[-1.1139, -1.7213],[ 0.5105,  0.4111],[ 2.1308,  2.5476],[ 1.2611, -0.7307],[-2.0910,  0.1941],[-0.3903,  1.3022],[-0.2442,  0.5787]]]) torch.Size([2, 8, 2])
x after transformer tensor([[[ 1.0000, -1.0000],[ 1.0000, -1.0000],[-1.0000,  1.0000],[ 1.0000, -1.0000],[-1.0000,  1.0000],[ 1.0000, -1.0000],[ 1.0000, -1.0000],[-1.0000,  1.0000]],[[ 1.0000, -1.0000],[ 1.0000, -1.0000],[ 1.0000, -1.0000],[-1.0000,  1.0000],[ 1.0000, -1.0000],[-1.0000,  1.0000],[-1.0000,  1.0000],[-1.0000,  1.0000]]], grad_fn=<NativeLayerNormBackward0>) torch.Size([2, 8, 2])

原因

在询问过全知全能的New Bing之后,找到一篇文章。

简化Transformer模型训练技术简介

Understand the difficulty of training transformer
时间:2020
引用:124
期刊会议:EMNLP 2020
代码:https://github.com/LiyuanLucasLiu/Transformer-Clinic

在这里插入图片描述

Transformer的Layer Norm的位置很关键。

如果我们使用Post-LN,模型可能对参数不稳定,导致训练的失败。 而Pre-LN却不会。

原始Transformer论文中为Post-LN。一般来说,Post-LN会比Pre-LN的效果好。

针对这点,Understand the difficulty of training transformer文中提出使用Admin初始化。在训练稳定的前提下,拥有Post-LN的性能。

在这里插入图片描述

解决

这里我们使用Pre-LN。

torch.nn.TransformerEncodelayer就提供了norm_frist的选项。

self.trans = TransformerEncoderLayer(d_model=2,nhead=2,batch_first=True,norm_first=True)

修改后,输出:

x before transformer tensor([[[ 0.5373,  0.9244],[ 0.6239, -1.0643],[-0.5129, -1.1713],[ 0.5635, -0.7778],[ 0.4507, -0.0937],[ 0.2720,  0.7870],[-0.5518,  0.8583],[ 1.5244,  0.5447]],[[ 0.3450, -1.9995],[ 0.0530, -0.9778],[ 0.8687, -0.6834],[-1.6290,  1.6586],[ 1.2630,  0.4155],[-2.0108,  0.9131],[-0.0511, -0.8622],[ 1.5726, -0.7042]]]) torch.Size([2, 8, 2])
x after transformer tensor([[[ 0.5587,  0.9392],[ 0.5943, -1.0631],[-0.5196, -1.1681],[ 0.5635, -0.7765],[ 0.4341, -0.0819],[ 0.2943,  0.7998],[-0.5329,  0.8661],[ 1.5166,  0.5528]],[[ 0.3450, -1.9860],[ 0.0273, -0.9603],[ 0.8415, -0.6682],[-1.6297,  1.6686],[ 1.2261,  0.4175],[-2.0205,  0.9314],[-0.0595, -0.8421],[ 1.5567, -0.6847]]], grad_fn=<AddBackward0>) torch.Size([2, 8, 2])
http://www.yayakq.cn/news/826218/

相关文章:

  • 优化网站内容海城区建设局网站
  • 高端旅游网站制作1688做网站费用
  • 做临床研究在哪个网站注册wordpress如何发布视频
  • 网站显示结算wordpress 内存溢出
  • 各大门户网站wordpress模板克隆
  • 网站制作和推广静态网页设计报告
  • 网站做等保桂平seo关键词优化
  • 网站多个用户怎样建设小学门户网站建设情况汇报
  • 学习网站开发心得体会上海做得好的网站建设公司
  • 站长工具seo综合查询5g衡阳有实力seo优化
  • 做网站浏览器必须用xp系统吗海报设计图片手绘图
  • 厦门软件网站建设鞍山玉佛苑电话是多少
  • 黄山网站建设网页开发工具怎么调出来
  • 淄博住房和城乡建设局网站专业营销网站公司
  • 德州建设小学网站wordpress展示图片不显示
  • 网站制作公司的网站进出口贸易公司取名大全
  • 六安论坛网站深圳出行最新通告
  • 辽宁官方网站做辣白菜衡水网站建设衡水网站建设
  • seo+网站排名谷歌seo是指什么意思
  • 公司网站开发报价网站建设指导
  • 在网站开发中应该避免哪些漏洞广州开发区和黄埔区的关系
  • 中国和住房城乡建设部网站首页无锡建设局评职称网站
  • 江苏新宁建设集团网站桥 网站建设
  • 网站建设hairongsoft找建网站模板
  • 大冶建设局网站相册网站源码php
  • 佛山营销网站建设服务seo营销推广平台
  • 常州市城乡建设学院网站福建百度开户
  • 萍乡的电子商务网站建设公司php网站cms
  • 毕业生登记表自我鉴定模板合肥网站seo优化排名公司
  • 网站页脚品牌网站建设gs