当前位置: 首页 > news >正文

产品营销网站兴宁网站建设

产品营销网站,兴宁网站建设,网站开发预留接口,购物网站的基本功能#1.数据倾斜 什么是数据倾斜? 一部分数据多 一部分数据少 造成的结果: MR运行过慢 主要是shuffle和reduce过程慢 分组聚合导致数据倾斜 Hive未优化的分组聚合 方法1:在MAP端直接聚合(分组聚合优化),减少…

#1.数据倾斜
什么是数据倾斜?
一部分数据多
一部分数据少
造成的结果: MR运行过慢 主要是shuffle和reduce过程慢

分组聚合导致数据倾斜

Hive未优化的分组聚合
在这里插入图片描述
方法1:在MAP端直接聚合(分组聚合优化),减少Key
MR失败

方法2:随机数,按随机数放入reduce中 解决数据倾斜 第二个Jobs按分组字段分区
因为生成随机了,所以按

方法1和方法2 一起用是不影响的
先进行聚合 然后按随机数分配reduce 再启动一个job dierge job 按分组字段分区

join的数据倾斜
最后根据KEY进行分组
在这里插入图片描述
这里的数据倾斜的现象和影响是什么呢?
1.map join
2. skew join
牺牲一个job为代价解决
将产生数据倾斜的Key去单独跑一个job
其实就是啥, map将大K提出来重新一个job ,剩下的直接生成结果集,然后job2的结果最后也注入结果集
根据参数判断
在这里插入图片描述
这里晚点多看一下
大表Join 对倾斜Key的表的key打散,对关联的另一张表的key扩容
为什么????

reduce 并行度
可以指定并行度,也可以自动
可以设置最大值
为什么最大默认1009
在这里插入图片描述

可以设置reduce task数据量 估算Reduce并行度

reduce task量与数据量相关合理么?
不合理,因为收到的是map处理后的数据,有可能已经变小很多了,在reduce端小文件
但是无法获取map的数据量

在这里插入图片描述
3表join OBC如何优化?
在这里插入图片描述
在这里插入图片描述
优化后: 先进行小表合并,

谓词下推
谓词下推(predicate pushdown)是指,尽量将过滤操作前移,以减少后续计算步骤的数据量。
CBO优化也会完成一部分的谓词下推优化工作,因为在执行计划中,谓词越靠前,整个计划的计算成本就会越低。
–是否启动谓词下推(predicate pushdown)优化
set hive.optimize.ppd = true;
白话:
在这里插入图片描述
谓词下推:先执行过滤条件再执行join

在这里插入图片描述

hive本地模式
在这里插入图片描述
开启自动转换模式
符合条件用本地 不符合条件用集群
与直接设置HADOOP参数语句的不同
一个自动,一个主动。

set mapreduce.framework.name=local;
http://www.yayakq.cn/news/344386/

相关文章:

  • 0505网页制作与网站建设网站的更新与维护
  • 成都网站推广技巧腾云公司做网站
  • 做网站月收入多少乐陵seo
  • 福州 哈尔滨网站建设 网络服务建设网站技术标准
  • 黄岛英文网站建设长春关键词推广
  • 软件网站开发合同phonegap wordpress
  • 南京免费自助建站模板贵阳网站建设方案
  • 微网站建设哪家强网站兼容浏览器服务
  • 辽宁工程招投标信息网网站建设优化过程中的优化策略
  • d网站建设的目的中信建设有限责任公司是上市公司吗
  • 网站开发的编程语言学做美食饮品网站
  • 耐克运动鞋网站建设规划书框架微网页制作模板
  • 网站推荐软件那些做测评的网站好
  • 网站建设集群化的必要青岛企业级网站设计
  • 做美食视频的网站企业网站的功能
  • jsp写的网站网络服务费计入什么科目
  • 做机械加工外贸网站哪家好1m带宽做网站快不
  • 一站式服务中心生物科技 网站模板下载
  • 泉州网站优化排名推广建设门户网站申请
  • 能从源代码黑进网站修改数据吗网站建设价格专注制作网站设计
  • 学网站建设前景网站开发属于软件吗
  • 专业购物网站建设哪家好做网站收多少钱
  • 业绩显示屏 东莞网站建设技术支持有限公司属于什么企业类型
  • 租房网站开发需求文档密码管理admin
  • 珠海医疗网站建设音乐视频怎么做mp3下载网站
  • 个人网站可以做产品宣传吗西安网站设计
  • 深圳专门网站建设庆阳网站设计 贝壳下拉
  • 企业门户网站开发源码吉安网站建设jxthw
  • 邯郸做外卖网站的公司网店运营模式有哪些
  • 杭州知名网站建设公司公共数据开放网站建设