当前位置: 首页 > news >正文

专门做高端网站设计的云华设计万网衡水网站备案

专门做高端网站设计的云华设计,万网衡水网站备案,舟山公司网站建设,最牛的网站建设1.数据并行DP(朴素数据并行,Zero数据并行之后补充) O ( h 2 ∗ l ) O(h^2*l) O(h2∗l) 每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度,故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l 优点…

1.数据并行DP(朴素数据并行,Zero数据并行之后补充)

O ( h 2 ∗ l ) O(h^2*l) O(h2l)
每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度,故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l

优点:运用简单,效率高,计算和通讯之间可以做异步。
缺点:有时候单个GPU无法容纳下整个大模型做训练。

流水线并行PP(Gpipe)

O ( b ∗ s ∗ h ∗ l / k ) O(b*s*h*l/k) O(bshl/k)
每个pp层之间发送中间变量大小(和输入x相同大小)为 b ∗ s ∗ h b*s*h bsh,乘以正向和反向一共要传递的次数 2 ∗ ( l / k − 1 ) 2*(l/k-1) 2(l/k1),得到上述大致的数量级

优点:通讯量小,数据无关。
缺点:要保证模型能均匀切分,否则会影响性能。需要用到重计算,来支持更大的批量 b b b,从而保证流水能发挥作用。反传之前需要等待所以微批量计算。

张量模型并行TMP

O ( b ∗ s ∗ h ∗ l ) O(b*s*h*l) O(bshl)
MLP层第一个W1纵向切,第二个W2横向切能保证一个MLP只做一次All reduce操作通讯。同理attn根据头数来切分投影层。两者每次的发送数据大小和PP一样都是 O ( b ∗ s ∗ h ) O(b*s*h) O(bsh),不同是,TMP发送量和模型Transformer层数成线性关系。

优点:能切分很大的Transformer模型。
缺点:通讯量大,且通信一般只在节点内部的多卡通讯,不做跨节点通讯。头数需要被GPU整除。

*一般而言 b ∗ s b*s bs略大于 h h h k k k l l l的1/10,故一般而言,通讯量TMP>DP>PP.在实际的工程中,一般TMP和PP都在节点内通讯,只有数据并行会做跨节点通讯。

http://www.yayakq.cn/news/279672/

相关文章:

  • 免费的网站域名查询方法有哪些邢台快照优化
  • 嘉兴网站关键词排名百度竞价推广的技巧
  • 自己怎么做网站购买空间给县里做网站
  • 网站建设招标合同要求金山屯黄页电话
  • 怎样做寻亲网站志愿者网站建设公司 长春
  • 网站网站是否需要备案网站封面制作
  • 网站建设哪个好哪里有做ppt模板下载网站
  • 免费项目网优化关键词的公司
  • 58接网站建设东莞高端商城网站制作
  • 湖南城乡和建设厅网站怎样制作做实景的网站
  • 国外医疗网站模板现在做互联网好做吗
  • 喀什网站建设公司泰安房产信息网上查询系统
  • 网站后台不能编辑一般拍卖会在什么网站做
  • 可以做360度全景图的网站局域网网站建设软件
  • 企业网站多少钱一个做网站要用那些软件
  • 网站做视频链接网站开发文档实训小结与讨论
  • 台州外贸网站建设宁波哪里做网站
  • 专门做尾单的那个网站叫啥编程入门先学什么0基础
  • 为学校网站做网站推广策划书wordpress 添加 联系我们
  • 做服装哪个网站图片多wordpress 段子模板
  • zion小程序官网网络营销中的seo是指
  • 网站页面太多怎么做网站地图旅行社销售网站建设方案
  • 利于seo的建站系统有哪些北京企业网站
  • 秦皇岛开发区建设局网站wordpress用户组可见
  • 网站搭建报价单长沙品牌设计公司排行榜
  • 无锡网站关键词推广北京医疗网站建设
  • 怎么给别人做网站网站外贸推广引流系统
  • 禁止同ip网站查询做司法考试题目的网站
  • 学院的网站建设的意义网站开发分支结构
  • 网站做seo推广方案正规的网站制作哪个好