当前位置: 首页 > news >正文

原平的旅游网站怎么做的怎么才能自己做网站

原平的旅游网站怎么做的,怎么才能自己做网站,自媒体网络公司经营范围,wordpress u-degin本篇文章记录下 chatglm-6B 训练和推理过程 环境:Ubuntu 20.04 1.13.0cu116 chatglm-6B 源代码仓库:链接 chatglm-6B 模型权重:链接 源代码及模型 clone 到本地 这里使用的是 THUDM 在 hugging face 开源的模型。 因为模型比较大&#xff…

本篇文章记录下 chatglm-6B 训练和推理过程
环境:Ubuntu 20.04 + 1.13.0+cu116
chatglm-6B 源代码仓库:链接
chatglm-6B 模型权重:链接

源代码及模型 clone 到本地

这里使用的是 THUDM 在 hugging face 开源的模型。
因为模型比较大,仓库保存模式使用的是 git lfs 模式,再 clone 之后再使用 git lfs pull 去 download 大文件。

clone chatglm6B 代码

git clone https://github.com/THUDM/ChatGLM-6B

git lfs 在 ubuntu 的安装方式。参考

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs

clone 模型权重到本地,并且使用 git lfs pull 最新版本的模型权重。参考

git lfs install
git clone https://huggingface.co/THUDM/chatglm-6b
git lfs pull

chatglm-6B ptuning 训练

THUDM提供的 ptuning 方式 链接 链接

这里需要配置的执行脚本如下:

# train.sh
PRE_SEQ_LEN=128
LR=2e-2CUDA_VISIBLE_DEVICES=0 python3 main.py \--do_train \ --train_file /data/AdvertiseGen/train.json \--validation_file /data/AdvertiseGen/dev.json \--prompt_column content \--response_column summary \--overwrite_cache \--model_name_or_path /data/chatglm-6b \--output_dir /data/chatglm-6b-output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \--overwrite_output_dir \--max_source_length 64 \--max_target_length 64 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 16 \--predict_with_generate \--max_steps 100 \--logging_steps 10 \--save_steps 50 \--learning_rate $LR \--pre_seq_len $PRE_SEQ_LEN \--quantization_bit 4

在显卡内存较低情况下可以使用 quantization_bit=4、per_device_train_batch_size=1、gradient_accumulation_steps=16 ,这种配置下 INT4 的模型参数被冻结,一次训练迭代会以 1 的批处理大小进行 16 次累加的前后向传播,等效为 16 的总批处理大小,此时最低只需 6.7G 显存。
训练输出的 metrics 如下:
在这里插入图片描述

chatglm-6B 推理

推理阶段使用的是训练导出的 checkpoint 文件。对应好训练阶段 的 PRE_SEQ_LEN LR 以及训练 STEP ,配置方式如下

# evaluate.sh
PRE_SEQ_LEN=128
CHECKPOINT=adgen-chatglm-6b-pt-128-2e-2
STEP=100CUDA_VISIBLE_DEVICES=0 python3 main.py \--do_predict \--validation_file /data/AdvertiseGen/dev.json \--test_file /data/AdvertiseGen/dev.json \--overwrite_cache \--prompt_column content \--response_column summary \--model_name_or_path /data/chatglm-6b \--ptuning_checkpoint /data/chatglm-6b-output/$CHECKPOINT/checkpoint-$STEP \--output_dir /data/chatglm-6b-output/$CHECKPOINT \--overwrite_output_dir \--max_source_length 64 \--max_target_length 64 \--per_device_eval_batch_size 1 \--predict_with_generate \--pre_seq_len $PRE_SEQ_LEN \--quantization_bit 4

运行结果
在这里插入图片描述

web_demo 执行

相关参考

1、https://zhuanlan.zhihu.com/p/627358709

遇到的问题

1、RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto->ParseFromArray(serialized.data(), serialized.size())]
这是模型权重文件下载不完全或者版本不一致导致的。
解决方法是 git lfs pull 最新的权重文件。参考
2、NameError: name ‘round_up’ is not defined
这是没有安装 cpm_kernels 的缘故。使用 pip 安装即可。 参考

http://www.yayakq.cn/news/449652/

相关文章:

  • 娱乐网站建设微信网站搭建
  • 网站在线备案服装设计学什么
  • 网站建设起到计划和指导作用搭建创新平台
  • cms 多个网站建网站和建网页的区别
  • 哪个网站可以做英文兼职网站的关键词在哪设置
  • 网站建设维护保密协议有哪些做平面设计好的网站有哪些内容
  • phpstudy怎么做网站厦门的服装商城网站建设
  • 综合网站系统网站什么也没动怎么不收录啦
  • 网站模版怎么样关于网站建设方案
  • 小江网站建设网络营销外包推广系统
  • 进一步加大网站集约化建设力度论坛网站建设视频
  • 免费做优化的网站建设长春比较有名的做网站建设
  • 公路水运建设质量与安全监督系统网站太原自学网站建设
  • 自适应网站平台外贸网站推广上海
  • 公司做网站算什么费用集团网站信息建设情况
  • 北京朝阳网站太原seo团队
  • 中国建设银行网站首页旧版今天的新闻直播
  • 用php做的网站跨境电商主要平台有哪些
  • 微信网页上的网站怎么做的百姓网招聘信息最新招聘
  • 怎么做钓鱼网站呢毕业设计指导网站建设
  • 地板网站建设图片网站收录
  • 租一个国外的服务器 建设网站软件开发一天收费多少
  • 银川网站seo小企业广告投放平台
  • 企业做网站的方案网站开发类标书报价明细表
  • 课程网站开发流程图及原型图大连网站制作怎么做
  • 宣城 网站建设网站类型后缀
  • 招标网官方网站建设执业资格注册中心网站办事大厅
  • 怎么促成客户做网站广州网络营销类岗位
  • 手机网站设计尺寸毫米睢宁县建设局网站
  • 网站域名推广linux怎么使用wordpress