当前位置: 首页 > news >正文

郑田生网站建设及维护上海微网站

郑田生网站建设及维护,上海微网站,站长工具seo综合查询分析,专业网页制作费用背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive 问题:单表日800亿数据量,产生过多的小文件,影响Impala查询 解决:对hive小文件进行合并, ALTER TABLE lt_ipsy_xdr_temp PARTITION (day20230829, hour9,type…

背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive

问题:单表日800亿数据量,产生过多的小文件,影响Impala查询

解决:对hive小文件进行合并,

ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

目前大数据平台hdfs数据存储情况:

数据仓库中的表:
1.stg层是把flink应用程序写入的数据load进入的;
2.ods层表名称中包含ai的表是从mysql导入的; 
/_SCRATCH0 这些目录是sqoop 把mysql数据导入hive时生成的临时目录,可以删除。
3.stg 和 ods 的 tb_bu_dc_monitor_day 是外部表,其他层的表都是内部表;
4.stg层是原始数据,没有经过压缩处理,ods及以后其他各层都是orc格式
 

使用hive concatenate (外部表不可用,内部表可用,orc可用,分桶表不可用)
使用方式:

#1.设置文件最小大小(需要设置,否则合并操作可能会不理想):
SET mapreduce.input.fileinputformat.split.maxsize=256
#对于非分区表
alter table A concatenate;
#2.对于分区表
ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

因为分桶表不适用,所以可以采用覆写的方式

INSERT OVERWRITE TABLE table 

PARTITION (day=20230908,hour=9,datatype=4)
SELECT 
a,b,c,d,e
FROM table 
where day=20230908 and hour=9 and datatype=4;

http://www.yayakq.cn/news/763047/

相关文章:

  • 做外贸面料的网站php怎么做全网小视频网站
  • 网站设计 网站推广 网站优化中大型企业网络组网案例
  • 网站建设预算表制作网站首页几天做完
  • 网站建设找哪些平台wordpress修复插件
  • 网站建设建站培训wordpress 加速访问
  • 网站建设 云计算网站接入服务商
  • 金属加工网站建设济南网站制作网站
  • 做再生料的网站ui培训公司
  • 网站做适配手机要多久图书馆门户网站建设有哪些公司
  • 蒙古文网站建设郑州seo优化公司排名
  • 做网站营销怎么去推广网站关联页面如何做
  • 深圳设计公司企业网站可以免费做调查问卷的网站
  • 站长网站后台搜索引擎网站推广怎么做
  • 建设农村信息网站wordpress目录页面
  • 太原网站建设服务企业建站网站建站系统
  • 专做奢侈品品牌的网站如何设计制作网站
  • 丽水 网站建设网站开发的质量标准
  • 网站主题制作网站推广基本方法是
  • 乐清做网站建设公司哪家好晋安网站建设
  • 做网站开发 用什么app开发者需要更新
  • 晋城网站seo成功营销案例分享
  • 优质的南昌网站设计成都建设网站的公司有哪些
  • vue做的个人网站江苏建设工程安全监督网站
  • 西昌市建设工程管理局网站什么是网站名称
  • 最新钓鱼网站源码手机制作表格教程
  • 盐城网站开发代理咨询卖设计图的网站
  • 韶关城乡建设部网站首页网站内页百度提交口
  • 公司做网站一般多少钱运营网站打不开dns修改
  • 网站制作需要学什么asp.net 4.0网站开发与项目实战(全程实录)(附光盘)
  • 宁波龙山建设有限公司网站电子商务专业简单介绍