当前位置: 首页 > news >正文

电话约建设网站 客户苏州网站建设书生商友

电话约建设网站 客户,苏州网站建设书生商友,淘宝网站开发用到哪些技术,丰台新乡网站建设一、概述 Transfomer架构与传统CNN和RNN最大的区别在于其仅依赖自注意力机制,而没有卷积/循环操作。其相较于RNN,不需要进行时序运算,可以更好的进行并行;相较于CNN,其一次可以关注全图而不局限于感受野尺寸。 二、模…

一、概述

        Transfomer架构与传统CNN和RNN最大的区别在于其仅依赖自注意力机制,而没有卷积/循环操作。其相较于RNN,不需要进行时序运算,可以更好的进行并行;相较于CNN,其一次可以关注全图而不局限于感受野尺寸。

二、模型架构

        1.功能模块

                功能模块结构如下图所示:

                Inputs:编码器输入

                Outputs:解码器输入(解码器之前时刻的输出作为输入)

                Positional Encoding

                Transformer Block(编码器):由一个具有残差连接的多头注意力层和一个具有残差连接的前向传递网络组成。编码器的输出会作为解码器的输入。

                 Transformer Block(解码器):相较于编码器多了一个Masked Multi-Head Attention(掩码多头注意力)机制。

         2.网络结构

                ①编码器

                        堆叠了6个Transfomer Block,每个Block中有两个Sublyaer(子层)(Multi-head self-attention mechanism(多头自注意力机制)+MLP(多层感知机)),最后经过一个Layer Normalization

                        其采用公式可表达为:LayerNorm(x+Sublayer(x))<具备残差连接>

                        Layer Norm类似于Batch Nrom,均为求均值的算法,不同点在于Batch Nrom是求一个batch内(列)的均值,而Layer Norm是求一个样本(行)内的均值

                ②解码器

                        堆叠了6个Transfomer Block,每个Block中有三个Sublyaer(子层),解码器内会做一个自回归(当前时刻的输入是上一个时间的输出)。而为了保证 t 时刻不会看到之后的输出,在第一个多头注意力块中增加了一个掩码机制进行屏蔽。

                ③注意力机制

                        注意力函数(将query和一些key-value对映射成一个输出的函数,每个value的权重是其对应的key和查询的query的相似度得来的)

                        其公式可以写为:Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V

                        query和key的长度均等于d_k,value的长度等于d_v;将每组querykey进行内积作为相似度(值越大,相似度越高--cos函数);得出结果后再除以\sqrt{d_k}(即向量长度);最后以一个softmax得到权重。

                        得出权重后与vuale进行乘积即可得到输出。

                        实际运算时,query和key均可写作矩阵,采用下图所示方法计算。

                        掩码机制: 对于时间 k 的输入Q_t而言,在计算时应该只看k_1k_{t-1}时刻的值,但实际上注意力计算时Q_t会和所有 k 进行运算。固引入掩码机制,具体做法为:将k_t及其之后计算的值替换为一个很大的负数,在经过softmax后就会变为0。

                        多头机制:将整个query、key、value投影到低维(h次,原文的h=8),再做h次注意力函数;将每个函数的输出并在一起,再投影回高维度得到结果。如下图所示:

                                 图中的Linear用于低维投影;Scaled Dot-Product Attention为注意力机制。concat负责将结果合并。

                                其公式为:MultiHead(Q,K,V)=Concat(head_1,...head_h)W^O

                                                                where  head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)

http://www.yayakq.cn/news/433754/

相关文章:

  • 昆明做网站优化的公司网站开发类app
  • 网站怎么样做优化成都网站建设好
  • ps做网站分辨率自适应哪些网站可以seo
  • 查询网站名有没有收录wordpress企业建站视频
  • 企业网站改一下多少钱北京昨天出啥大事了
  • 高州手机网站建设公司个人微信公众平台注册
  • 长沙建设工程造价网站网站 ip修改备案流程
  • qq网页版 登陆太原企业网站seo
  • 二手东西网站怎么做建站宝盒v8破解版下载
  • 百度站长平台推出网站移动化大赛常州建设局下属网站
  • 中国建设布网站代理注册公司哪家好
  • 深圳企业公司做网站自己做网站的方法
  • 服务网站建设企业网址大全下载安装
  • 株洲专业建设网站wordpress 花生壳
  • 微网站不能分享朋友圈dw网页制作怎么设置背景颜色
  • 焦作网站建设费用seo信息网
  • 有哪些公司网站关键词优化排名技巧
  • 陕西省建设厅证网站号多少小程序加盟代理平台
  • 深圳网站建设 案例微信公众号小说网站怎么做
  • 广州专业网站制作平台广西南宁网站制作
  • 农村电子商务网站建设方案建e室内设计网 周婷
  • 公司网站做好了怎么做排名青岛工程建设管理信息网站
  • 免费的外贸网站推广方法西乡网站建设
  • 江苏省建设执业中心网站成都建设厅官方网站
  • 怎么制作网站源码盐城优化办
  • 企业展示网站模板酒店如何进行网络营销
  • 淘宝指数网址网站 百度 关键字优化
  • 赣州 做网站网站改版多久恢复
  • 做js题目的网站排名优化工具下载
  • 8网站建设做网站网站系统怎么建设