当前位置: 首页 > news >正文

睢宁网站建设哈尔滨云建站模板

睢宁网站建设,哈尔滨云建站模板,在那些网站做宣传更好,长春仿站定制模板建站之前用https://github.com/FlagAlpha/Llama2-Chinese微调过几个模型,总体来说llama2的生态还是比较好的,过程很顺利。微调百川2就没那么顺利了,所以简单做个记录 1. 数据准备,我的数据是单轮对话,之前微调llama2已经按…

    之前用https://github.com/FlagAlpha/Llama2-Chinese微调过几个模型,总体来说llama2的生态还是比较好的,过程很顺利。微调百川2就没那么顺利了,所以简单做个记录

    1. 数据准备,我的数据是单轮对话,之前微调llama2已经按照sft格式做好txt文件,翻看https://github.com/baichuan-inc/Baichuan2发现用的是json,和我所用数据格式有所出入,训练我还是用一开始用llama2的finetune脚本和参数,按照baichuan2的数据格式调整了代码。不过最后为了兼容llama2,我就把llama2的数据格式和tokenize_function给用在了百川2上,看起来也没啥问题。

    2. 模型选取,用baichuan2-13b-chat作为预训练权重,推理的时候总是头部输出我要的内容,但是输出总是无法停止,就算训完一个epoch也是这样,很怪异,研究半天,不知道所以然,干脆放弃,采用不带chat的baichuan2-13b作为预训练权重,这次很快出结果,只要iter 100次保存下来的模型,输出也是我想要的内容,所以就不换了,暂时用baichuan2-13b。主要是llama2已经跑的很好,我实验也就不求甚解,将就先用baichuan2-13b。在这个过程中"--lora_r 1 --lora_alpha 32 --lora_dropout 0.1"这几个参数,我按照baichuan2仓库里设置了。

    3. 给百川模型的加载统统加上trust_remote_code,不然总是提示你y/N选择,孙悟空都会是烦死了。

    4. 训练模型遇到的错误1: 

AttributeError: 'BaichuanTokenizer' object has no attribute 'sp_model'

        这个错误通过简单回滚transfomers解决python3 -m pip install transformers==4.33.2,另外还有一个错误忘了具体是啥,通过回滚bitsandbytes解决python3 -m pip install bitsandbytes==0.41.0,幸运的是llama2在这两个模块版本下,同样工作。上面的错误,其实也有人说挪下tokenization_baichuan.py里的super的位置,我改了几处这个文件,似乎不起作用,随即放弃这个方案。

    5. ​推理过程遇到的错误2,这个错误也是折腾了我好一会,通过给AutoModelForCausalLM.from_pretrained加上pretraining_tp=1参数解决,先跑通,原理没去深究了。

RuntimeError: mat1 and mat2 shapes cannot be multiplied (1x20 and 9x5120)

     6. 训练还遇到一个内存不足的问题3,google了两把,按照提示加了个环境变量PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:1536,果然就好了,谷歌不欺我也。内存不是真不足,而是碎片化严重,调整max_split_size_mb比降低batch size总是好的。

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.20 GiB (GPU 0; 23.69 GiB total capacity; 20.29 GiB already allocated; 579.94 MiB free; 22.56 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

    7. llama2微调的参数module是q_proj,k_proj,v_proj,o_proj,down_proj,gate_proj,up_proj这些,百川2很奇怪,有个自己的W_pack,把全连接打印了一下,其实还有down_proj,o_proj,up_proj,gate_proj,微调这几个部分,效果也差不多,微调哪些更好哪些更差,暂时就不去比较了,遇到问题,也许可以调整一下。 

http://www.yayakq.cn/news/897600/

相关文章:

  • 海会网络建设网站wordpress运行平台
  • 网站都能做响应式莱阳网页定制
  • 速冻蔬菜做哪个国际网站好网站外链数怎么查
  • 北京企业网站制作哪家好淘宝做任务网站
  • google网站打不开了设计网站都有什么作用是什么原因
  • 网站建设放在什么科目泉州网红打卡景点
  • 网站建设方案设计ppt建设银行官方网站登录入口
  • 利用万网做网站男男做受网站
  • 最新网站域名网格建设专业好不好
  • 响应式网站一般做几个设计稿石家庄市最新消息今天
  • 一般做网站要多少钱公司网站建设 邮箱
  • 广西网站建设贵吗龙宜推广公司是正规吗
  • 常州市教育基本建设与装备管理中心网站这几年做啥网站致富
  • 韩国做 mp4下载网站wordpress弹窗通知
  • 开源镜像网站开发建设电子商务网站的规划书
  • 企业网站建设找智恒网络南京建设网页培训班
  • 怎么看别的网站是那个公司做的快速建站
  • 智慧团建网站注册登录入口黄冈建设局网站
  • 营销团队外包神马搜索seo优化排名
  • 网页设计教程网站网页制作与网站建设宝典 第2版
  • 宣讲家网站两学一做心得wordpress远程安装教程
  • 分类目录网站有哪些中信建设有限责任公司唐万哩
  • 建网站代理哪个建设网站后怎么发布
  • 网站开发php和ui做网站做
  • wordpress抓取设置惠州自动seo
  • 扬州建设网站呼和浩特市做网站公司好的
  • 多语种网站后台北京宣传册高端设计公司
  • 广东网站建设包括什么wordpress 插件 浮动小人
  • 直播网站如何做怎样做公司的网站
  • 初级网站开发的自我推荐做网站的结论