当前位置: 首页 > news >正文

解析软件的网站网站商城服务体系建设方案

解析软件的网站,网站商城服务体系建设方案,网站建设 电话营销,家用电器网站建设我们提出的 LayerSkip 是一种端到端的解决方案,可加快大型语言模型(LLM)的推理速度。 首先,在训练过程中,我们采用了层间丢弃技术(layer dropout),早期层间丢弃率较低,后期层间丢弃率较高。 其次…

我们提出的 LayerSkip 是一种端到端的解决方案,可加快大型语言模型(LLM)的推理速度。 首先,在训练过程中,我们采用了层间丢弃技术(layer dropout),早期层间丢弃率较低,后期层间丢弃率较高。 其次,在推理过程中,我们证明这种训练方法提高了早期退出的准确性,而无需在模型中添加任何辅助层或模块。 第三,我们提出了一种新颖的自推测解码方案,即在早期层退出,并通过模型的其余层进行验证和校正。 与其他推测式解码方法相比,我们提出的自推测式解码方法占用的内存更少,并能从草稿和验证阶段的共享计算和激活中获益。 我们在不同大小的 Llama 模型上进行了不同类型的训练实验:从头开始预训练、持续预训练、在特定数据域上进行微调,以及在特定任务上进行微调。 我们实施了推理解决方案,结果表明,CNN/DM 文档的摘要速度提高了 2.16 倍,编码速度提高了 1.82 倍,TOPv2 语义解析任务的速度提高了 2.0 倍。 我们在 https://github.com/facebookresearch/LayerSkip 开源了我们的代码。

在这里插入图片描述

快速上手

$ git clone git@github.com:facebookresearch/LayerSkip.git
$ cd LayerSkip

创建环境

$ conda create --name layer_skip python=3.10
$ conda activate layer_skip$ pip install -r requirements.txt

访问模型: 为了观察加速情况,您需要访问使用 LayerSkip 配方训练过的 LLM。 我们在 HuggingFace 上提供了 6 个检查点,它们是使用 LayerSkip 配方持续预训练的不同 Llama 模型:

  • facebook/layerskip-llama2-7B
  • facebook/layerskip-llama2-13B
  • facebook/layerskip-codellama-7B
  • facebook/layerskip-codellama-34B
  • facebook/layerskip-llama3-8B
  • facebook/layerskip-llama3.2-1B

代码

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from copy import deepcopycheckpoint = "facebook/layerskip-llama3.2-1B"
early_exit = 4
device = "cuda" if torch.cuda.is_available() else "cpu"
prompt = "typing import List\ndef bucket_sort(A: List):"model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", use_safetensors=True, torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained(checkpoint)generation_config = model.generation_configweights_memo = {id(w): w for w in model.parameters()}
assistant_model = deepcopy(model, memo=weights_memo) # Clone main model with shared weights
assistant_model.model.layers = assistant_model.model.layers[:early_exit] # Apply early exit
del assistant_model.model.layers[early_exit:]inputs = tokenizer(prompt, return_tensors="pt").to(device)outputs = model.generate(**inputs, generation_config=generation_config, assistant_model=assistant_model, max_new_tokens=512)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True)[0])

或者Torchrun

$ torchrun generate.py --model facebook/layerskip-llama2-7B \--sample True \--max_steps 512

LayerSkip的项目地址

  • GitHub仓库:https://github.com/facebookresearch/LayerSkip
  • HuggingFace模型库:https://huggingface.co/collections/facebook/layerskip-666b25c50c8ae90e1965727a
  • arXiv技术论文:https://arxiv.org/pdf/2404.16710

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

http://www.yayakq.cn/news/106034/

相关文章:

  • 如何建wap网站网站平台建设什么意思
  • 招商加盟网站模板程序建企业版网站多久
  • 汕头网站制作公司官方网站建设的目标
  • 怎么注册网站的步骤营销型网站能解决什么问题
  • 网站忧化技巧798艺术区
  • 备案网站多长时间wordpress 标签 图片不显示
  • 主机 建设网站自己做网站的优势
  • 帮助人做ppt的网站外国人学做中国菜 网站
  • 做网站切图的原则是什么足球比赛直播在线观看
  • 郑州二七区网站建设精准扶贫建设网站的目的
  • 无障碍浏览网站怎么做网络推广发帖网站
  • 有哪些门户网站六安城市网地址在哪里
  • 天津建设网站哪家好wordpress手机模板怎么用
  • 老徐蜂了网站策划书网站设计需要在哪方面提升
  • 南京做网站优化多少钱wordpress同学录
  • 电商网站开发主要设计内容营销型网站深度网
  • 宁波网站推广制作公司首页官网
  • 济宁住房和城乡建设厅网站首页自己家里做网站网速慢
  • 食品销售公司网站制作wordpress 主题 激活
  • jsp 响应式网站模板下载合肥生态丽景网站建设
  • 做网站要会哪些技术关于校园网站的策划书
  • 贵州移动端网站建设富阳区住房和城乡建设局网站
  • 想做网站的公司好杭州小程序建设公司
  • 网站密码管理制度网站后端怎么做
  • 太原市建设工程交易中心网站舆情信息
  • 微信分销网站建设比较好班级网站建设需求
  • 做包装盒有哪些网站百度免费校园网站建设
  • 网站开发环境分析网页制作标准
  • 做一个新公司网站要多少钱外贸seo推广公司
  • access 网站数据库图文广告设计