当前位置: 首页 > news >正文

半路出家去学计算机网站开发深圳永久免费网站建设哪个好

半路出家去学计算机网站开发,深圳永久免费网站建设哪个好,陕西省建设网三类人员成绩公示,网站设计教程及在线模拟器一、概述 Transfomer架构与传统CNN和RNN最大的区别在于其仅依赖自注意力机制,而没有卷积/循环操作。其相较于RNN,不需要进行时序运算,可以更好的进行并行;相较于CNN,其一次可以关注全图而不局限于感受野尺寸。 二、模…

一、概述

        Transfomer架构与传统CNN和RNN最大的区别在于其仅依赖自注意力机制,而没有卷积/循环操作。其相较于RNN,不需要进行时序运算,可以更好的进行并行;相较于CNN,其一次可以关注全图而不局限于感受野尺寸。

二、模型架构

        1.功能模块

                功能模块结构如下图所示:

                Inputs:编码器输入

                Outputs:解码器输入(解码器之前时刻的输出作为输入)

                Positional Encoding

                Transformer Block(编码器):由一个具有残差连接的多头注意力层和一个具有残差连接的前向传递网络组成。编码器的输出会作为解码器的输入。

                 Transformer Block(解码器):相较于编码器多了一个Masked Multi-Head Attention(掩码多头注意力)机制。

         2.网络结构

                ①编码器

                        堆叠了6个Transfomer Block,每个Block中有两个Sublyaer(子层)(Multi-head self-attention mechanism(多头自注意力机制)+MLP(多层感知机)),最后经过一个Layer Normalization

                        其采用公式可表达为:LayerNorm(x+Sublayer(x))<具备残差连接>

                        Layer Norm类似于Batch Nrom,均为求均值的算法,不同点在于Batch Nrom是求一个batch内(列)的均值,而Layer Norm是求一个样本(行)内的均值

                ②解码器

                        堆叠了6个Transfomer Block,每个Block中有三个Sublyaer(子层),解码器内会做一个自回归(当前时刻的输入是上一个时间的输出)。而为了保证 t 时刻不会看到之后的输出,在第一个多头注意力块中增加了一个掩码机制进行屏蔽。

                ③注意力机制

                        注意力函数(将query和一些key-value对映射成一个输出的函数,每个value的权重是其对应的key和查询的query的相似度得来的)

                        其公式可以写为:Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V

                        query和key的长度均等于d_k,value的长度等于d_v;将每组querykey进行内积作为相似度(值越大,相似度越高--cos函数);得出结果后再除以\sqrt{d_k}(即向量长度);最后以一个softmax得到权重。

                        得出权重后与vuale进行乘积即可得到输出。

                        实际运算时,query和key均可写作矩阵,采用下图所示方法计算。

                        掩码机制: 对于时间 k 的输入Q_t而言,在计算时应该只看k_1k_{t-1}时刻的值,但实际上注意力计算时Q_t会和所有 k 进行运算。固引入掩码机制,具体做法为:将k_t及其之后计算的值替换为一个很大的负数,在经过softmax后就会变为0。

                        多头机制:将整个query、key、value投影到低维(h次,原文的h=8),再做h次注意力函数;将每个函数的输出并在一起,再投影回高维度得到结果。如下图所示:

                                 图中的Linear用于低维投影;Scaled Dot-Product Attention为注意力机制。concat负责将结果合并。

                                其公式为:MultiHead(Q,K,V)=Concat(head_1,...head_h)W^O

                                                                where  head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)

http://www.yayakq.cn/news/888596/

相关文章:

  • PS网站设计服饰网站建设模板
  • 网站建设如何来选择空间大丰做网站
  • 西安网站开发高端网站开发学校网站建设教程
  • 做外贸需要关注国外哪些网站wordpress共享插件
  • 汾湖做网站让别人做网站多久开始注册域名
  • 网站空间150mai海报设计
  • 定兴网站建设天津网站建设普斯泰
  • 如何建自己的网站网站建设推广选stso88效果好
  • 公司建网站带商城可以吗网站背景图
  • 网站后台html汨罗哪里有网站开发的公司电话
  • 重庆景点导游词广西seo公司有哪些
  • 东莞网站优化指导2024年新闻时事热点论文
  • 做电影类网站收入怎么样dedecms 5.7 关闭网站
  • 河南省建设工程招投标协会网站jquery做的网站
  • 宝安专业手机网站设计公司微信网站搭建价格
  • 深圳龙岗淘宝网站建设公司有哪些气球网站建设
  • 聊城手机网站建设家具网站案例
  • ui设计比较成功的网站页面wordpress首页read more
  • 网站上传源码后怎么弄建设工程施工合同名词解释
  • 建盏公司官方网站网站设计报价单模板
  • 公司建站做明星网站可以做那些子网页
  • 网站关键字多少合适企业商城网站建设价格
  • 平阳企业网站建设群晖wordpress插件
  • 大朗网站仿做福步外贸官网
  • 淘宝网站可以做轮播吗wordpress轮播框
  • 苏州网站建设品牌网站空间租赁
  • 深圳网站建设黄浦网络-技术差小程序推广运营的公司
  • 湘潭响应式网站建设 磐石网络建设局全称是什么
  • 海南网络广播电视台地震避险常识百度seo排名点击
  • 肥东住房和城乡建设部网站网站ui设计素材