当前位置: 首页 > news >正文

网站建设家乡网页设计模板网上注册公司需要什么材料和手续

网站建设家乡网页设计模板,网上注册公司需要什么材料和手续,网站建设公司山西,学校网站开发程序前言 本文一开始是《七月论文审稿GPT第2版#xff1a;从Meta Nougat、GPT4审稿到Mistral、LongLora Llama》中4.3节的内容#xff0c;但考虑到 一方面#xff0c;LongLora的实用性较高二方面#xff0c;为了把LongLora和LongQLora更好的写清楚#xff0c;而不至于受篇幅…前言 本文一开始是《七月论文审稿GPT第2版从Meta Nougat、GPT4审稿到Mistral、LongLora Llama》中4.3节的内容但考虑到 一方面LongLora的实用性较高二方面为了把LongLora和LongQLora更好的写清楚而不至于受篇幅之限制三方面独立成文可以有更好的排版而更好的排版可以有更高的可读性(哪怕一个小小的换行都能提高可读性更何况独立成文带来的可读性的提高) 故把这部分的内容抽取出来独立成本文 第一部分 LongLora 具体而言LongLora是港中文和MIT的研究者通过此篇论文《LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models》于23年9月底提出的(这是其GitHub)其显著特点有三 longlora的作者团队认为尽管在推理过程中需要密集的全局注意力但通过稀疏局部注意力(sparse local attention)也可以高效地完成模型的微调比如他们提出的移位稀疏注意力(shifted sparse attention简称S2-Attn)可有效地实现上下文扩展且显著节省计算资源具有与使用vanilla注意力(vanilla attention)进行微调相似的性能 简言之用sparse local attention替换掉dense global attention类似检索不需要把所有的东西都拿过来把相似度高的匹配度高的一部分context拿来就可以了他们发现LoRA加到embedding matrix以及normalization的子网络上的时候效果更好 啥意思这点在于常规操作是lora一般加到query, key, value等部分上而这里是加到embedding matrix上以及normaliztion上了LongLoRA在保留原始架构的同时扩展了模型的上下文并且与大多数现有技术(如Flash-Attention2)兼容 此外还进一步发布了使用LongLoRA技术的长指令遵循数据集LongAlpaca以进行监督微调(we further conduct supervised fine-tuning with LongLoRA and our long instruction-following LongAlpaca dataset) 1.1 LoRA在长文本上的不足 通过本博客内的多篇文章可知原始transformer的计算复杂度虽序列长度的二次方成正比这一点一直导致模型的长下文长度不好扩展(比如把长度从2048扩展到8192复杂度得上升4x4 16倍)对于该问题 很多研究者或团队做了各种改进与探索 比如Flash-Attention、Flash-Attention2(详见此文《通透理解FlashAttention与FlashAttention2让大模型上下文长度突破32K的技术之一》)再比如Position Interpolation (详见此文《大模型上下文扩展之YaRN解析从直接外推ALiBi、位置插值、NTK-aware插值、YaRN》的2.3节) spent 32 A100 GPUs to extend LLaMA models from 2k to 8k context当然了这种资源开销即便是七月项目团队也不一定舍得耗(其实我司项目团队一直在“低成本 高效果”的方向上探索过程中积攒了这方面的很多经验)更别说一般个人了 如何降低资源开销呢一种直接的方法是通过LoRA对预训练的LLM进行微调 对于预训练的权重矩阵W∈Rd×k它通过低秩分解W ∆W  W  BA进行更新其中B∈Rd×r和A∈Rr×k。秩r≪min(d, k)在训练过程中W被冻结没有梯度更新而A和B是可训练的(关于LoRA的更多说明详见此文《LLM高效参数微调方法从Prefix Tuning、Prompt Tuning、P-Tuning V1/V2到LoRA、QLoRA(含对模型量化的解释)》的第4部分) For a pre-trained weight matrix W ∈ R d×k , it is updated with a low-rank decomposition W ∆W W BA, where B ∈ R d×r and A ∈ R r×k . The rank r ≪ min(d, k). During training, W is frozen with no gradient updates, while A and B are trainable. This is the reason why LoRA training is much more efficient than full fine-tuning. 在Transformer结构中LoRA只关注权重(Wq、Wk、Wv、Wo)而冻结所有其他层包括MLP层和归一化层 In the Transformer structure, LoRA only adapts the attention weights (Wq, Wk, Wv, Wo) and freezes all other layers, including MLP and normalization layers LoRA利用低秩矩阵对自注意块中的线性投影层进行修改从而减少了可训练参数的数量(LoRA modifies the linear projection layers in self-attention blocks by utilizing low-rank matrices, which are generally efficient and reduce the number of trainable parameters) 然而单纯的低秩自适应会导致长上下文扩展的困惑度(perplexityin简称PPL)很高如下表所示且即便将秩增加到一个更高的值例如rank 256也并不能缓解这个问题 那咋办呢让embedding层和Norm层也添加LoRA训练之后困惑度PPL可以显著降低 在效率方面无论是否采用LoRA计算成本都会随着上下文规模的扩大而急剧增加这主要是由于标准的自注意机制所导致的(Vaswani et al. 2017)。如下图所示即便使用LoRA当上下文窗口扩展时Llama2模型的训练时间也会大大增加 为此他们提出shifted sparse attention(S2-Attn)以替代标准自注意力机制 1.2  shifted sparse attention(S2-Attn) 1.2.1 S2-Attn的原理解释 如下图所示 将上下文长度分成几个组并在每个组中单独计算注意力。在半注意力头中将token按半组大小进行移位这保证了相邻组之间的信息流动(In half attention heads, we shift the tokens by half group size, which ensures the information flow between neighboring groups)例如使用组大小为2048的S2-Attn来近似总共8192个上下文长度训练这与Swin Transformer具有高度的相似(详见此文《AI绘画能力的起源从VAE、扩散模型DDPM、DETR到ViT/Swin transformer》的第五部分) 上面的描述还是不够形象具体那到底怎么理解这个S2-Attn呢如下图所示(值得一提的是这个图是论文v2版的和论文v1版稍有细微差别当然 不影响本质) 首先它将沿头部维度的特征分成两大块(即it splits features along the head dimension into two chunks比如8行4列8行相当于8个token4列可以认为是有4个头然后竖着一切为二) 相当于[L, H, D], Ltoken num8, Hhead num4, Ddimension of expression1(可暂且认为是1了毕竟一个方块算是长度为1的一个向量 执行完操作之后是[L, H, D] - [L, H/2, D] and [L, H/2, D]即被竖着切成了左右两个part其次其中一个块中的标记被移动组大小的一半(tokens in one of the chunks are shifted by half of the group size) 如上图step 2的shift所示shift the  part by half group相当于  第2个part的第8个token的后一半表示(也即原始inputs第8个token的后两个heads)移动到第2个part的第1行  而第2个part中原来的「第1-7个token的后一半表示」整体往下移动一行第三将token分组并重塑为批量维度注意力只在每个组内计算信息通过移位在不同组之间流动。虽然移位可能会引入潜在的信息泄漏但这可以通过对注意力掩码进行微调来避免Third, we split tokens into groups and reshape them into batch dimensions. Attention only computes in each group in ours while the information flows between groups via shifting. Potential information leakage might be introduced by shifting, while this is easy to prevent via a small modification on the attention mask. 相当于把两个part连起来后然后横着切三刀切成了4个group每个group有8个小方块 第一个group相当于包含第一part的前两行和第二part中更新之后的前两行 然后计算该group内的注意力类似于做了“cross-over”正因为只是计算group内部的几个tokens之间的attention所以称之为short attention 为方便大家更快的理解特再补充两点 为形象起见举个例子假定这8个单词是i am learning Machine Learning by julyedu online然后上述过程可用下表表示 i 前一半(表示)i 后一半(表示)i 前一半online 后一半lineam 前一半am 后一半am 前一半i 后一半learning 前一半learning 后一半learning 前一半am 后一半Machine 前一半Machine 后一半Machine 前一半learning 后一半Learning 前一半Learning 后一半Learning 前一半Machine 后一半by 前一半by 后一半by 前一半Learning 后一半julyedu 前一半julyedu 后一半julyedu 前一半by 后一半online 前一半online 后一半online 前一半onjulyedu 后一半针对上面那个S2-Attn示意图 该图的左边部分 上文已经解释的很清楚了那右侧的两个图呢 咋一看比较抽象其实仔细琢磨之后右侧的两个图描述的注意力范围pattern2相对于pattern1的注意力窗口是“移位”了的 具体到某个token来观察会清楚一点除了“pattern1中q1”和“pattern2中q1”的注意力范围是一致 都是k1之外 pattern1中q2的注意力范围是[k1,k2]pattern2中q2的注意力范围变成了仅[k2] pattern1中q3的注意力范围仅是[k3]pattern2中q3的注意力范围变成了[k2,k3] pattern1中q4的注意力范围是[k3,k4]pattern2中q4的注意力范围变成了仅[k4] pattern1中q5的注意力范围是仅[k5]pattern2中q5的注意力范围变成了[k4,k5] ... 两个pattern从最开始的token注意力范围就是错位的所以后续token注意力范围就一直是错开的这样错开的形式使得两个pattern聚合起来就可以让组外信息有机会产生交互 1.2.2 S2-Attn的伪代码表示 如下图所示 第一步Bbatch size, Nsequence length, 3q,k,vHhead numD每个head的表示维度 例如qkv[1, 4, 3, 4, 1] 即batch size1一共一个序列44个tokens3q,k,v4head num1dim of a head 1head2head3head4head1head2head34213243qkv.chunk(2, 3)得到的是一个tuple包括两个张量[1, 4, 3, 2, 1]左边的part以及[1, 4, 3, 2, 1]是右边的part qkv.chunk(2, 3)[0]即左边的包括两个heads的part qkv.chunk(2,3)[1] 即右边的包括两个heads的part这里是对其shift 1个token了接下来按照group分别计算group内的tokens的注意力最后复原 1.2.3 LongAlpaca-13B 在llama 13B上应用longlora技术便是LongAlpaca-13B 第二部分 LongQLora // 待更
http://www.yayakq.cn/news/1079/

相关文章:

  • 做网站能成功吗wordpress网站很慢
  • 浙江中联建设集团网站wordpress 没有中文
  • 建设中网站如何上传图片网页设计公司兴田德润在那里
  • 建商城网站需要什么条件制作网站得多少钱
  • 企业建站用什么软件杭州python做网站
  • 网站备案号找回密码国外ip地址怎么弄
  • 哪个网站容易做二级域名建网站用什么系统
  • 广州电子商务网站建设费用女同wordpress
  • 美团网站界面设计网站招聘怎么做
  • 免费的个人空间建网站网站开发网页权限如何控制
  • 中旅远洋商务网站建设策划书免费收录软文网站
  • wordpress 导航网站无二制造 网站升级建设中
  • wordpress注册模板下载seo关键词快速排名软件
  • 深圳做网站de公司优化网站做什么的
  • 建设教育网站法律网站的建设流程
  • app网站建设宣传方案怎么查网站建设时间
  • 八宝山做网站的公司家装公司十大口碑排名
  • 建设网站有哪些步骤网站空间查询
  • 合肥网站制作方案凡科互动答题辅助
  • 深圳网站设计九曲网站建设毕业设计网站开发流程
  • 网站建设依据标题设计网站
  • 企业网站设计服务90设计网怎么样
  • 上海智能模板建站泉州人才网
  • 什么软件做网站链接自己做的网站提示不安全
  • 建设网站用什么代码写好呢齐鲁人才网
  • 用asp.net 做网站怎么查域名注册商
  • 徐州市城乡建设局门户网站自己能不能做个网站
  • 建设一个网站的一般过程网站建设奖项
  • 云服务器网站搭建教程菏泽炫佑网站建设
  • 南京工大建设工程技术有限公司网站免费建工作室网站