当前位置: 首页 > news >正文

建设一个网站大概费用网站建设lnmp

建设一个网站大概费用,网站建设lnmp,免费资料库大全,安徽六安特产当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文…

当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL,对这几种数据湖表格式的查询性能做一个全面的测试。

测试环境

我们选择使用 Aamzon EMR Serverless 作为测试的基础环境,版本选择 EMR 最新的 7.1.0。Spark 版本为 3.5.0。

Amazon EMR Serverless 已经集成了 Hudi,Iceberg,Delta Lake,所以我们直接使用集成的版本,而Paimon,是通过外部依赖使用的是 paimon-spark-3.5-0.8.1

测试数据是通过 TPC DS 工具生成好的 3TB 的 parquet 数据文件,我们把着 3TB 的文件分别以这几种表格式的类型写入各自的表中。
每张表的数量如下:

表名记录数
call_center48
catalog_page36000
catalog_returns432006840
catalog_sales4320004419
customer30000000
customer_address15000000
customer_demographics1920800
date_dim73049
household_demographics7200
income_band20
inventory1033560000
item360000
promotion1800
reason67
ship_mode20
store1350
store_returns864006076
store_sales8251110748
time_dim86400
warehouse22
web_page3600
web_returns215999442
web_sales2159391499
web_site66

每个表格式的版本

OTFVersion
Hudi0.14.1
Iceberg1.4.3
DeltaLake3.0.0
Paimon0.8.1

Spark 配置参数
--conf spark.dynamicAllocation.enabled=false
--conf spark.driver.cores=4
--conf spark.driver.memory=5g
--conf spark.executor.cores=4
--conf spark.executor.memory=6g
--conf spark.executor.instances=47

测试结果

我们分别在EMR Serverless 使用最大资源配置 400 vCPUs, 3000 GB memory, 20000 GB disk 运行了4 种OTF的查询测试,得到如下的结果,下图是每一个sql的执行时长,所以数值越小,说明查询用时越短。

在这里插入图片描述

测试过程中 Iceberg,Delta Lake 的SQL 是全部运行成功的
Hudi 在执行 q2,q3 失败
Paimon 在执行 q4,q5 失败,发现应该是在运行作业的时候,shuffle 数据导致磁盘空间不足,因此在启动 Paimon 作业的时候,在EMRServerless启动参数中,又单独添加了指定磁盘大小的参数 spark.emr-serverless.executor.disk=100g

通过上图,初步看到,Paimon 在 query 场景下的性能与其他集中 OTF 格式有一定差距。

将每种OTF的运行时长累加:
在这里插入图片描述

这样对比就更明显,Delta Lake 在 Spark 下的查询性能更优,着应该跟 spark 背后的 databrick 的优化有不小的关系, Iceberg 其次,第三是 Hudi。而 Paimon 表现最差,它的执行时长(5100+s)则超过了 Iceberg(2100+s) 的两倍,相比 Deltalake(1600+s)也有三倍的差距。

http://www.yayakq.cn/news/564855/

相关文章:

  • 网站建设属于什么费沈阳建设工程信息网招标显示待验证什么意思
  • 拼客多网站多少钱可以做wordpress 图片水印
  • 怎么做qq盗号网站能直接加微信的交友软件
  • 吉林商城网站建设做网站视频
  • wordpress站点管理wordpress缩 图
  • 做网站怎么投放广告怎样做软件网站
  • 深圳最好的网站开发公司做网站学多长时间可以学会
  • 可以做单的猎头网站做化妆品代理在那些网站比较多
  • jquery 网站框架网站上做网上支付功能
  • 免费推广网站有哪些网站建设与维修
  • 国外的做外包项目的网站中国电信商圈经验分享
  • 长沙高端网站建设公司文昌网站 做炸饺子
  • 做零食网站的选题理由搭建wordpress配置
  • 手机网站开发注意怎么用php做网站方案
  • 做网站赚钱还是做app赚钱wordpress插件 评分
  • 安徽网站seo公司哪家装修公司比较好的
  • app小程序网站开发长春火车站需要核酸检测报告吗
  • 网站开发运用到的相关技术网站怎么自己编辑模块
  • 上海化工网站建设设计签名免费网站
  • 网站建设与维护简称代理注册
  • 游戏 网站模板网站建设开
  • 优秀网站建设最新报价网站建设代码容易出错
  • 国外优秀的企业网站企业域名注册费用
  • 用手机做网站的流程网站页面上的悬浮窗怎么做
  • 不在百度做推广他会把你的网站排名弄掉河南省住房建设厅官方网站
  • 简述建立一个网站模板步骤专门做二手手机的网站吗
  • 南通网站关键词优化塘下建设银行网站
  • dw网站模板下载网络电子商务购物网站
  • html需要下载什么软件合肥关键词优化平台
  • 做网站坚持原创文章有什么好处项目招商