当前位置: 首页 > news >正文

网站如何吸引蜘蛛酒店网站建设哪家好

网站如何吸引蜘蛛,酒店网站建设哪家好,网站变宽屏怎么做,360建筑网的内容百度可以查到吗前言:大型语言模型(LLMs)的发展历程可以说是非常长,从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初,LLM的训练过程只关注预训练,但后来逐步扩展到了包括预训练和后训练在内的完整…

前言:大型语言模型(LLMs)的发展历程可以说是非常长,从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初,LLM的训练过程只关注预训练,但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程,而这些在ChatGPT的推广下变得广为人知。

自ChatGPT首次发布以来,训练方法学也在不断进化。在这几期的文章中,我将回顾近1年中在预训练和后训练方法学上的最新进展。

关于LLM开发与训练流程的概览,特别关注本文中讨论的新型预训练与后训练方法

每个月都有数百篇关于LLM的新论文提出各种新技术和新方法。然而,要真正了解哪些方法在实践中效果更好,一个非常有效的方式就是看看最近最先进模型的预训练和后训练流程。幸运的是,在近1年中,已经有四个重要的新型LLM发布,并且都附带了相对详细的技术报告。

在本文中,我将重点介绍以下模型中的谷歌的 Gemma 2语言模型 预训练和后训练流程:

• 阿里巴巴的 Qwen 2

• 苹果的 智能基础语言模型

• 谷歌的 Gemma 2

• Meta AI 的 Llama 3.1

我会完整的介绍列表中的全部模型,但介绍顺序是基于它们各自的技术论文在arXiv.org上的发表日期,这也巧合地与它们的字母顺序一致。

谷歌的Gemma 2

谷歌的Gemma模型最近在《Gemma 2:改进实用大小的开放语言模型》中有所描述。

我将在接下来的概述部分提供一些关键事实的概述,然后讨论预训练和后训练过程。

3.1 Gemma 2概述

Gemma 2模型有三种规模:20亿、90亿和270亿参数。主要关注的是探索不一定需要增加训练数据集大小的技术,而是开发相对小且高效的LLM。

值得注意的是,Gemma 2具有相当大的词汇量,为256k词汇。相比之下,Llama 2使用了32k词汇量,Llama 3使用了128k词汇量。

此外,Gemma 2采用了类似Mistral早期模型的滑动窗口注意力,可能是为了减少内存成本。有关Gemma 2架构的更多细节,请参阅我之前文章中的Gemma 2部分。

3.2 Gemma 2预训练

Gemma的研究人员认为,即使是小型模型也常常训练不足。然而,他们没有简单地增加训练数据集的大小,而是专注于维护质量,并通过其他方法(如知识蒸馏,类似于苹果的方法)实现改进。

尽管270亿参数的Gemma 2模型是从头开始训练的,较小的模型则使用了类似苹果之前解释的方法的知识蒸馏进行训练。

270亿参数的模型在13万亿标记上训练,90亿参数的模型在8万亿标记上训练,20亿参数的模型在2万亿标记上训练。此外,类似于苹果的方法,Gemma团队优化了数据混合以提升性能。

                                                                Gemma 2预训练技术总结。

3.3 Gemma 2后训练

Gemma模型的后训练过程包括典型的监督微调(SFT)和带人类反馈的强化学习(RLHF)步骤。

指令数据涉及使用仅英语的提示对,这些是人工生成和合成生成内容的混合。具体来说,也很有趣的是,响应主要由教师模型生成,并且在SFT阶段也应用了知识蒸馏。

他们的RLHF方法中一个有趣的方面,继SFT之后,是用于RLHF的奖励模型比政策(目标)模型大十倍。

Gemma使用的RLHF算法相当标准,但有一个独特的转折:他们通过一种称为WARP的方法平均了政策模型,这是WARM(加权平均奖励模型)的后继者。我之前在我的文章《模型融合、专家混合及朝向更小LLM》中详细讨论过这种方法。

                                                                Gemma 2后训练技术总结。

3.4 结论

Gemma团队似乎真的加倍依赖知识蒸馏,他们在预训练和后训练中都使用了这种方法,与苹果类似。有趣的是,他们没有使用多阶段预训练方法,或者至少他们在论文中没有详细说明。

http://www.yayakq.cn/news/974993/

相关文章:

  • 12306网站很难做吗wordpress产品优惠
  • 做平面设计必看的网站自己怎么做搬家网站
  • 长沙seo建站wordpress制作列表页
  • 建设京东物流网站的目标是什么石家庄网站优化公司
  • 怎么建设一个区块链资讯网站广州网站设计推荐刻
  • 电子商务网站建设以什么为核心wordpress站点使用期限插件
  • 网站建设书模板国际学校网站如何建设
  • 松江品划网站建设苍南县规划建设局网站
  • 东阳市住房和城乡建设局网站电子商务网站建设汇报PPT
  • 网站开发中的开版什么意思dede网站qq类资源源码
  • 安全网站建设的研究方法怎么在拼多多开无货源网店
  • 三亚网站优化asp官方网站
  • 有口碑的南昌网站建设推荐一些外国做产品网站
  • 荣成做网站的公司学的专业是编课 网站开发英语翻译
  • 网站死链检测工具企业企业网站建设
  • 沙田做网站博客平台wordpress
  • 网站开发软件网站开发山西太原网站建设公司哪家好
  • 医药网站制作英文网站建站模板
  • 农产品网站开发背景wordpress 自定义首页
  • 济南企业网站建设哪家好微信怎么自创小程序
  • 制作公司内部募捐网站平面设计制作公司
  • 网站制作程序下载高性价比网站建设
  • 衡水做网站企业wordpress需要付费才能看某些页面
  • 网站付费功能描述渭南免费做网站
  • 做网站是用ps还是ai网站服务器主机配置
  • 哪个设计网站做兼职好智能建站系统cms
  • aspnet网站开发到部署流程柳市做网站建设
  • flash网站特点拓者设计吧下载
  • 国家网站标题颜色搭配哪个网站可以改字体
  • 南通网站制作设计如何建设国外网站