当前位置: 首页 > news >正文

不同性质网站的营销特点一览表网站自己做余额充值自动扣款

不同性质网站的营销特点一览表,网站自己做余额充值自动扣款,济南行知做网站,大型网站开发方案基础篇:Transformer 引言模型基础架构原论文架构图EmbeddingPostional EncodingMulti-Head AttentionLayerNormEncoderDecoder其他 引言 此文作者本身对transformer有一些基础的了解,此处主要用于记录一些关于transformer模型的细节部分用于进一步理解其具体的实现机…

基础篇:Transformer

  • 引言
  • 模型基础架构
    • 原论文架构图
    • Embedding
    • Postional Encoding
    • Multi-Head Attention
    • LayerNorm
    • Encoder
    • Decoder
    • 其他

引言

此文作者本身对transformer有一些基础的了解,此处主要用于记录一些关于transformer模型的细节部分用于进一步理解其具体的实现机制,输入输出细节,以及一些理解.此文会不定期更新用于记录新学习到的知识.

模型基础架构

原论文架构图

首先给出的是原论文 Attention is all you need中的架构图,我们会在这个篇章部分分列模型pipeline中的各个部件。在最后给出关于这个模型图中没有的细节补充。

论文原图

Embedding

其使用的是nn.embedding来进行初始化,根据词表里的数量和设置的隐层维度来初始化,可训练。(**TODO:**这里会存在词表的初始化问题,即分词方法,在后续介绍)

Postional Encoding

两种编码方式,learned PE是绝对位置编码,即直接随机初始化一个可训练的参数;Sinusoidal PE为相对位置的三角编码,首先根据位置pos和隐层维度位置i得到embedding值
f ( p o s , i ) = s i n ( p o s 1000 0 i N ) i f i 为奇数   e l s e c o s f(pos,i)=sin(\frac{pos}{10000^{\frac{i}{N}}}) \ \ \ \ if\ \ i为奇数\ \ else\ \ cos f(pos,i)=sin(10000Nipos)    if  i为奇数  else  cos

Multi-Head Attention

单头attention 的 Q/K/V 的shape和多头attention 的每个头的Qi/Ki/Vi的大小是不一样的,假如单头attention 的 Q/K/V的参数矩阵WQ/WK/WV的shape分别是[512, 512] (此处假设encoder的输入和输出是一样的shape),那么多头attention (假设8个头)的每个头的Qi/Ki/Vi的参数矩阵WQi/WKi/WVi大小是[512, 512/8].

LayerNorm

BatchNorm本质是对同一个批次中,每一个数据样本的不同通道求均值方差,通道之间不进行交互,并通过滑动动量平均的方式将批次的均值方差记录下来用于推理。BN相对更适合在数据批次上具有统计意义的问题,其会抹平特征之间的差异,保留样本之间的大小关系。而在NLP任务当中,每个句子内部的特征大小关系才是需要保留的,不同句子之间关联不大,因此抹平样本之间的大小关系更为合适。

Encoder

Encoder一般包含两部分,self-attention和feed-forward。每一层Encoder都有独立的一组权重参数。最后一层Encoder得到的Wk,Wv用于计算Decoder的cross-attention。

Decoder

Decoder一般包含三个部分,self-attention, encoder-decoder-attention和feed-forward。在这里和这里有一些关于Decoder实际部署时的运行细节。

在训练的时候,Decoder通过mask得到ground truth的shift-right的下三角矩阵,对于位置t,其拥有前t-1个时刻的所有信息,之后计算矩阵得到该位置的output,该output和同位置的ground truth计算损失(即teach forcing的方法)。在推理时,通过padding一个一个输入,但只取最后一个时刻的output作为全局的预测结果,因此可能存在非对应位置最优解(即beam search)。

其他

  • 编码层解码层堆栈:事实上encoder和decoder是可以进行stack的,原论文图中只展示了一层,其实际实现逻辑是下图。
    在这里插入图片描述
  • transformer只能够处理定长输入和定长输出,对于长度不定的数据,通过padding -INF等方法来进行补全,由于softmax的存在这些会约等于0。
http://www.yayakq.cn/news/610331/

相关文章:

  • 网站如何做查询表单网站首页尺寸
  • 嘉定网站公司泗洪房产网
  • dw免费网站模板企业微信登录
  • 顶呱呱网站建设什么网站可以做软件有哪些东西吗
  • 企业网站建设价钱韩国网站模板
  • 免费网站统计工具深圳西乡有什么好玩的
  • google网站收录一般做自己的网站需要什么
  • 网站建设播放vr视频linux下搭建wordpress
  • vs2017网站开发组件邢台企业做网站的公司
  • 上门做美容的网站建设营销网站要什么问题
  • 30天网站建设实录下载辽宁省建设工程信息网官网招标
  • 县级网站云服务器多少钱一台
  • 服务网站建设排行做网站浏览器必须用xp系统吗
  • 精品成品冈站源码免费p2p网站设计
  • 医学关键词 是哪个网站做宿迁建设局网站
  • 网站没排名怎么办长春制作手机网站
  • 18款禁用网站app全部层次结构分明的网站配色方案
  • 深圳建站服务中心物流网站建设推广
  • 网站弹出咨询这个怎么做二级网站模板
  • 信息图表设计网站哈尔滨网站开发企业
  • 安庆网站建设公司个人网站相册怎么做
  • 网站建设未来发展的趋势砀山哪有做网站的
  • 手机网站跳出率低可视化前端开发工具
  • 海西网站建设怎样做竞价推广
  • 深圳知名的网站公司简介保定网页设计
  • 地方门户网站盈利模式做奖状的网站
  • 建设春风摩托车官方网站郑州做网站的公司
  • 老师做家教的网站友链交换平台源码
  • 有免费的网站建设网站优化推广怎么做
  • dw做网站乱码国内人工智能比较厉害的公司