当前位置: 首页 > news >正文

html5手机网站发布会展设计是什么

html5手机网站发布,会展设计是什么,免费的微信小程序,做网站你们用什么浏览器文章目录 学习内容LLaMALLaMA模型结构LLaMA下载和使用好用的开源项目[Chinese-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca)Chinese-Alpaca使用量化评估 学习内容 完整学习LLaMA LLaMA 2023年2月,由FaceBook公开了LLaMA,包含7B&#xff0…

文章目录

  • 学习内容
  • LLaMA
  • LLaMA模型结构
  • LLaMA下载和使用
  • 好用的开源项目[Chinese-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca)
  • Chinese-Alpaca使用
  • 量化
  • 评估

学习内容

  • 完整学习LLaMA

LLaMA

  • 2023年2月,由FaceBook公开了LLaMA,包含7B,13B,30B,65B。
  • 2023年7月,发布LLaMA2,包含7B,13B,65B。
    • 可商用
    • 模型架构不变,但训练数据增加了40%
    • 34B模型由于未满足安全要求并未发布
    • 包含基座模型和Chat模型:LLaMA 2 - chat

论文部分介绍:

  • 数据来源于公开数据集
  • 目的:在推理预算有限的情况下,达到更好的效果。
  • LLaMA 13B在大多数测试中优于GBT3-175B,65B相比当时最好的模型也有竞争力。
  • 主要工作:通过更多的token训练语言模型。
    在这里插入图片描述
  • 主要针对英语进行训练,也使用了部分其他语言。

LLaMA模型结构

和 GPT 系列一样,LLaMA 模型也是 Decoder-only 架构,但结合前人的工作做了一些改进,比如:

  • Pre-normalization [GPT3]. 为了提高训练稳定性,LLaMA 对每个 transformer 子层的输入进行归一化,使用 RMSNorm 归一化函数,Pre-normalization 由Zhang和Sennrich(2019)引入。
  • SwiGLU 激活函数 [PaLM]. 将 ReLU 非线性替换为 SwiGLU 激活函数,且使用 2 3 4 d \frac{2}{3} 4d 324d 而不是 PaLM 论文中的 4d,SwiGLU 由 Shazeer(2020)引入以提高性能。
  • Rotary Embeddings [GPTNeo]. 模型的输入不再使用 positional embeddings,而是在网络的每一层添加了 positional embeddings (RoPE),RoPE 方法由Su等人(2021)引入。
    在这里插入图片描述

LLaMA下载和使用

  • 模型申请:地址
  • 模型代码:地址(可以使用download脚本,只保留7b)
  • 我对校验不太了解,大家可以校验一下,我就肉眼看大小校验了。
  • 模型无法运行LLaMA初始权重,需要用transformers的脚本,convert_llama_weight_to_hf.py
  • 简单推理函数脚本和其中的文件

好用的开源项目Chinese-Alpaca

  • 本地GPU、CPU部署

  • 开源中文LLaMA模型,和指令微调的Alpaca大模型

  • 在原模型的基础上,扩充vocab词表,使用中文数据进行“继续训练”,并使用中文指令数据进行微调。

  • 该仓库的中包含的大模型。Chinese-LLaMA-7B是在原版LLaMA-7B的基础上,在20GB的通用中文语料库上进行预训练。Chinese-LLaMA-Plus-7B是在原版LLaMA-7B的基础上,在120GB的通用中文语料库上进行预训练
    在这里插入图片描述
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/7af06255ff3449f在这里插入图片描述
    ea26e0bbd92aba9b6.jpeg)

  • 完全使用LoRA进行预训练和微调,需要原版的LLaMA模型。

  • LoRA居然能有这么强……太离谱了。

Chinese-Alpaca使用

  • 根据官方教程即可,仅记录不同之处。
  • 单LoRA权重合并效果一般,建议使用多LoRA合并。(Plus和Pro)

量化

  • 量化:使用llama.cpp进行量化
  • 加入-t和别的参数之后效果极快

评估

  • 使用wikitext或自己构建数据集评估困惑度
  • 也可以使用GPT4或人类打分
http://www.yayakq.cn/news/758557/

相关文章:

  • 创意礼物网站建设与管理网站建站安全需求
  • 网站建设的基础资料网页设计的培训机构
  • 做网站推广哪家公司好用什么网站做框架图
  • 五合一营销型网站零配件加工东莞网站建设技术支持
  • 做电商怎么建网站网站建设常用编程语言
  • 江苏建设通网站网址转化短链接
  • 西宁网站建设公司排名程序员开发软件
  • 网站代码如何做优化企术建站
  • 做投票网站教程营销类网站建设需要注意的问题
  • 开发一个网站的费用松江区网站制作与推广
  • 响应式网站可以做缩放图吗工程公司会计账务处理
  • 米拓建站下载全面的网站制作
  • 重庆网站推广联系方式wordpress用那个采集器
  • 东莞做网站哪家好订货网站开发价格
  • 丹阳企业网站建设学校响应式网站建设
  • PHP开源网站开发系统wordpress rightlock
  • 网站开发收费wordpress登陆后台
  • 广州一次做网站老师用什么网站做ppt
  • 没有网站也可以做外贸吗xd怎么做网页
  • 大学课程免费自学网站北京企业营销网站建设
  • 外国ps素材网站做微信公众号的网站有哪些
  • 松花江避暑城建设网站益阳网站建设哪里好
  • 建立网站需要多少钱首选y湖南岚鸿品牌百度网站的网址是什么
  • 做网站怎么更新静态页安徽建工招标与采购网
  • 专业做淘宝开店的网站wordpress 图片宽度
  • 备案个人网站名称推荐ppt模板的种类
  • 网站推广是什么意思福州最新消息
  • 有帮忙做儿童房设计的网站吗wordpress能做成app吗
  • 智能搭建网站模仿做网站
  • 深圳市住房和城乡建设厅网站首页福田网站建设哪家便宜