当前位置: 首页 > news >正文

上海哪家公司做网站好网站建设人员配置是怎样的

上海哪家公司做网站好,网站建设人员配置是怎样的,海尔集团的电子商务网站建设,网络推广平台网站推广1 大模型 1.1 大模型的顿悟时刻 Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022 模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了 这边举的一个例子是&#…

1 大模型

1.1 大模型的顿悟时刻

Emergent Abilities of Large Language Models,Transactions on Machine Learning Research 2022

模型的效果不是随着模型参数量变多而慢慢变好,而是在某一个瞬间,模型“顿悟”了

这边举的一个例子是,比如让模型回答鸡兔同笼问题 

  • 一开始小模型什么都学不到,故而效果不好 
  • 随着模型参数量增大,模型慢慢地会一定地推导了,但是还是得不到正确的推导结果——此时仍然不得分
  • 只有当参数量达到某一个数值之后,不仅会推导,还得到了正确的答案
  • ——>此时才得分

 1.2 inverse scaling prize? U shape

Inverse scaling can become U-shaped 2022

大部分任务是随着模型的变大,效果越来越好,那么有没有某些任务/问题,是模型变大效果反而变差的呢?

 

答案是有的,这里列了一些:

  

但是,真的是模型参数量变大模型表现反而不好嘛?

 

于是这篇论文进一步扩大模型参数量,发现模型表现跌到一定程度后,还是会涨精度

——>在这些任务中,performace 和参数量的关系是U shape的

 

 

而这种带Ushape的任务,这篇论文认为,大多数是“带陷阱(干扰项)”的问题。当模型稍微获得一点能力的时候,就很有可能陷入这个陷阱中。但模型参数量进一步扩大,就会知道这是个“陷阱”,从而找到正确的答案

2 大资料

2.1 两种认知

When Do You Need Billions of Words of Pretraining Data?  2020

语言模型一般需要两种认知

  • 一种是对语言本身语法、文法的认知(深蓝色曲线)
    • 这一部分不需要很多的语料,有一些资料供学习就够了
  • 另一种是对语言背后世界运行规律的认知
    • 这一部分就需要大量的语料喂入了

2.2 数据处理

Scaling Language Models: Methods, Analysis & Insights from Training Gopher 2021
如何收集这些资料呢?

 

  • 过滤有害内容(比如黄色、暴力的内容)
  • 去除HTML tag
    • 从网站上爬资料的话,会有很多无用的HTML 语言
    • 但是也不是所有的HTML tag都去掉,会保留一些如换行符等有用的知识
  • quality filtering
    • 在论文中有详细的规则,介绍了如何去除低品质资料
  • 去除重复资料
    • 后面会有论文专门说重复资料的影响
  • test-set filter
    • 需要把用来测试的那一部分语料去掉,不然就相当于提前学了这一部分内容,导致测试结果不准

2.3 重复数据的影响

Deduplicating Training Data Makes Language Models Better 2021
  • 比如如上的语料库中,中间这一段话出现了6W多次 
  • 我们分不同的层级,去除掉语料库中重复的部分,然后喂入语言模型,让语言模型随便说一段话。
    • 将这一段话和语料库进行对比,看看模型是学习了语料库中的内容,生成了新的语句,还是仅仅死记硬背了语料库中的内容
    • 表格中的数字就是有多少比例生成的语句是和语料库中的语句极为相似
  • 可以发现如果语料库中重复的语句过多,机器很容易直接复述之前的内容

2.4 固定的计算资源下,应该更大的模型,还是更多的资料?

Training Compute-Optimal Large Language Models 2022

  • 每一条虚线都表示具有相同的运算资源
  • 纵轴表示预测的效果(Loss),越小表示预测的越好
  • 横轴表示模型参数量
  • 可以看到 小模型大资料 和 大模型小资料 效果都不如一个折衷的配置
    • 小模型大资料:看了很多资料,  但是不学习(学而不思)
    • 大模型小资料:思而不学

  •  于是论文把所有计算资源配置下的,各个U型曲线的最低点找到,然后进行外推
  • 得到一个和Gopher计算资源一样的情况下,模型参数和资料的最佳配置组合(命名为Chinchilla)

 

 可以发现Chinchilla几乎完胜

http://www.yayakq.cn/news/63034/

相关文章:

  • 成都武侯区建设厅官方网站天津建设厅网站首页
  • 网站建设前端和后端的区别一元购物网站建设
  • 十堰商城网站建设书画网站源码
  • 网站建设赵玉敏重庆建设工程信息网官
  • 营销网站建设平台网站优化要做哪些工作
  • 溧阳网站优化平面设计技能培训班
  • 企业微信网站开发文档大米网站模板
  • 网站打不开了什么原因wordpress 右侧边栏
  • 使用dw做门户网站免费个人博客网站模板下载
  • 怎么维护好网站手机app制作开发
  • 网站空间优惠网站制作教程百度云
  • 营销型网站案例易网拓网站开发合同审核要点
  • 网站备案撤销销售网站建设的会计分录
  • 泉州网站建设学徒招聘站建设 app开发网站
  • 网站如何做好内链做企业网站建设公司哪家好
  • 莱芜网站开发代理东营建设有限公司
  • 大型网站系统架构做公司网站有什么好处
  • 天津制作网站首页在网站上做送餐外卖需要哪些资质
  • 南阳做网站费用wordpress新建网页
  • 重庆知名网站制作公司枣阳网站开发
  • 美容养生wordpress商城模板优搜云seo
  • 宝山专业网站建设无代码建站软件
  • 网站建设 事项小程序制作一般多少钱
  • 孝感网站开发培训机构网页升级中紧急自动转跳中
  • 用阿里云服务器做自己购物网站做系统用什么网站好
  • 建设一个网站app需要多少钱做动漫网站用什么程序
  • 网站建设 方案 评价表网站设计模板代码
  • 广东石油化工建设集团网站画网站 模板
  • 宁波高端网站建设公司嘿客免费网站建设
  • 青岛网站建设官网关于网站建设的合同范本正规