当前位置: 首页 > news >正文

做阿里巴巴网站图片工商注册公司的流程

做阿里巴巴网站图片,工商注册公司的流程,西安做的好的网站公司,书店网站模板Spark与Iceberg集成落地实践(一) 文章目录 Spark与Iceberg集成落地实践(一)清理快照与元数据配置表维度自动清理元数据文件属性手动清理 清理孤岛文件合并数据文件 清理快照与元数据 配置表维度自动清理元数据文件属性 每一次写…

Spark与Iceberg集成落地实践(一)

文章目录

  • Spark与Iceberg集成落地实践(一)
    • 清理快照与元数据
      • 配置表维度自动清理元数据文件属性
      • 手动清理
    • 清理孤岛文件
    • 合并数据文件

清理快照与元数据

配置表维度自动清理元数据文件属性

每一次写入数据和表变更都会进行一次元数据的版本迭代,默认保存所有。

PropertyDescription
write.metadata.delete-after-commit.enabled每次表提交后是否删除旧的跟踪的元数据文件
write.metadata.previous-versions-max要保留的旧元数据文件的数量

SPARK DDL语句

建表时确认metadata生命周期

		sparkSession.sql("CREATE TABLE local.iceberg_db.table2( id bigint, data string, ts timestamp) USING iceberg PARTITIONED BY (day(ts)) TBLPROPERTIES('write.metadata.delete-after-commit.enabled'='true','write.metadata.previous-versions-max'='3')");

更改表的metadata生命周期

        sparkSession.sql("ALTER TABLE local.iceberg_db.table2 SET TBLPROPERTIES(" +"'write.metadata.delete-after-commit.enabled'='true'," +"'write.metadata.previous-versions-max'='3'" +")");

作用

这只会删除元数据日志中跟踪的元数据文件,而不会删除孤立的元数据文件。

清理从metadata.json链路开始的至data的所有文件,如下图:

数据层
元数据层
data file1
data file2
data file3
data file4
v2.metadata.json
Manifest list1
Manifest file1
Manifest file2

手动清理

        org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");long tsToExpire = System.currentTimeMillis() - (1000 * 60 * 60 * 24); // 保留一天org.apache.iceberg.spark.actions.SparkActions.get().expireSnapshots(table).expireOlderThan(tsToExpire).execute();

清理孤岛文件

孤岛文件的产生:

在 Spark 和其他分布式处理引擎中,任务或作业失败可能会留下未被表元数据引用的文件,在某些情况下,正常快照过期可能无法确定文件不再需要并将其删除。任务失败之后,最好进行一次清理表孤岛文件,若表相关任务成功,则不需要进行清理孤岛文件操作。

		org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");org.apache.iceberg.spark.actions.SparkActions.get().deleteOrphanFiles(table).execute();

合并数据文件

目前发现,需要分区类有标记删除的记录才会进行合并,why?

		org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");org.apache.iceberg.spark.actions.SparkActions.get().rewriteDataFiles(table).filter(Expressions.equal("ts", "2024-09-29")).option("target-file-size-bytes", Long.toString(500 * 1024 * 1024)) // 目标大小500 MB.execute();
http://www.yayakq.cn/news/832447/

相关文章:

  • 做模型的网站wordpress 图床
  • 做自媒体挣钱的网站有哪些网站内容全屏截屏怎么做
  • 微网站建设的现状桓台网站建设公司
  • 教育网站建设 思维导图施工企业组织目标
  • icp网站备案信息表wordpress网站如何添加栏目
  • 建设投资基金管理有限公司网站泉州哪家网站建设公司好
  • 巢湖市建设工程网站用flash做网站
  • 织梦网站做瀑布流方便在线天堂おっさんとわたし
  • 吉林市网站推广网站开发常见问题总结
  • 西安烽盈网站建设向wordpress发帖插件
  • 中国交通建设网官方网站wordpress get page
  • 如何做提升自己的网站wordpress付费播放器
  • 在线ps网站龙岩网站设计 信任推商吧做词
  • php招聘网站建设垂直 社交网站 建设
  • html5手机网站制作教程网站虚拟主机是什么
  • 微网站自助建设重庆市建设政务中心网站
  • 网站通栏图片代码营销培训师
  • 本标准在住房城乡建设部门户网站重庆渝北网站建设
  • 东莞网站建设哪个平台好网站建设这个行业如何
  • 对网站建设公司说怎样做自己的销售网站
  • 网站制作一般需要多少钱?个人网站可以备案几个
  • 263企业邮箱pop3设置云南网站seo服务
  • 服务器创建网站wordpress修改备案号
  • 阜阳城乡建设局网站经销商城建站
  • 商城网站建设合同范本大城 网站建设
  • 昆明做网站那家好宁波搭建网站
  • 网页qq邮箱怎么取消自动登录临漳seo整站排名
  • 电子商务网站建设与维护读书报告网站页面维护
  • 网站域名到期什么意思做暧暧国外网站
  • 网站设计师发展好乐买网站推广方式