当前位置: 首页 > news >正文

重庆制作网站速成班物流网站建设

重庆制作网站速成班,物流网站建设,淮安哪里做网站,怎么把网页设置为不信任网站文章目录 什么是 Hudi ?Hudi 是如何对数据进行管理的?Hudi 表结构Hudi 核心概念 什么是 Hudi ? Hudi 是一个用于处理大数据湖的开源框架。 大数据湖是指一个大规模的、中心化的数据存储库,其中包含各种类型的数据,如结构化数据、半结构化…

文章目录

      • 什么是 Hudi ?
      • Hudi 是如何对数据进行管理的?
      • Hudi 表结构
      • Hudi 核心概念

什么是 Hudi ?

Hudi 是一个用于处理大数据湖的开源框架。

大数据湖是指一个大规模的、中心化的数据存储库,其中包含各种类型的数据,如结构化数据、半结构化数据和非结构化数据,目的是为企业提供一个集中的数据存储库,从而更容易地进行数据分析和洞察。

Hudi支持数据操作模式:InsertUpdateDelete。这些操作是原子性的,因此在多个客户端并发访问时,数据的一致性得到了保证。另外,Hudi 支持基于时间戳的查询,使得可以轻松地查询某个时间点的数据快照。Hudi 还支持增量式处理,可以高效地处理大量的数据更新。

Hudi 是如何对数据进行管理的?

Hudi 通过管理数据的元数据,实现了对数据的管理。

具体来说,Hudi 将数据分为两个部分:数据本身和元数据。数据本身是指实际的数据,而元数据是指描述数据的数据,包括数据的结构、位置、格式、版本等信息。

Hudi 使用元数据来跟踪数据的变化,包括数据的插入、更新和删除等操作,并提供高效的查询功能,支持各种查询条件和时间点的查询。

在 Hudi 中,每个数据集都有一个元数据文件,用于描述数据集的结构、版本、位置等信息。每当数据集发生变化时,Hudi 会更新元数据文件,以便跟踪数据的变化。此外,Hudi还提供了一些工具,如命令行界面和 API,用于管理和查询数据集的元数据信息。

Hudi 还提供了两种不同的数据格式: Write-Optimized FormatRead-Optimized Format

Write-Optimized Format 针对写入操作进行了优化,可以高效地插入和更新数据,但查询性能较差。

Read-Optimized Format 则针对查询操作进行了优化,可以快速地读取数据,但写入性能较差。

Hudi 表结构

Hudi 是一种基于 Hadoop 的数据管理框架,可用于在分布式环境中管理大规模数据集。它提供了一种用于存储和处理数据的表结构,该结构被称为 Hudi 表。

Hudi 表由多个文件组成,这些文件位于 Hadoop 分布式文件系统(HDFS)或其他支持 Hadoop API 的文件系统中。Hudi 表的文件结构基于 Apache Parquet 格式,并且可以通过 Hudi 提供的 API 进行读写操作。

Hudi 的表结构在 HDFS 上的目录结构是比较复杂的,由以下几部分组成:

1. 表根目录(Table Root)

表根目录是Hudi表的顶级目录,它包含了表的元数据、数据文件以及其他Hudi特定的文件和目录。它的目录结构如下:

<Table Root>
├── .hoodie
│   ├── _SUCCESS
│   ├── .temp
│   ├── .tmp
│   ├── archive
│   ├── meta.properties
│   ├── metadata
│   ├── timeline.json
│   ├── version
│   ├── write.lock
│   └── ...
├── partition_1
│   ├── .hoodie_partition_metadata
│   ├── .hoodie_partition_metadata.json
│   ├── 2021/01/01
│   │   ├── file1_20210101.parquet
│   │   ├── file2_20210101.parquet
│   │   └── ...
│   ├── 2021/01/02
│   │   ├── file1_20210102.parquet
│   │   ├── file2_20210102.parquet
│   │   └── ...
│   └── ...
├── partition_2
│   ├── .hoodie_partition_metadata
│   ├── .hoodie_partition_metadata.json
│   ├── 2021/01/01
│   │   ├── file1_20210101.parquet
│   │   ├── file2_20210101.parquet
│   │   └── ...
│   ├── 2021/01/02
│   │   ├── file1_20210102.parquet
│   │   ├── file2_20210102.parquet
│   │   └── ...
│   └── ...
├── ...
└── .hoodie_partition_metadata
  • .hoodie 目录是 Hudi 表的核心目录,它包含了 Hudi 表的元数据和其他相关文件和目录

  • .temp 目录用于存储正在写入的数据

  • .tmp 目录用于存储已完成写入但尚未提交的数据

  • archive 目录用于存储归档数据

  • metadata 目录包含了所有分区的元数据信息

  • timeline.json 文件包含了表的时间轴信息

  • version 文件包含了表的版本信息

  • write.lock 文件用于控制并发写入

2.分区目录(Partition Directory)

分区目录是按照分区键组织的目录,每个分区目录下都包含了该分区下的所有数据文件和 .hoodie_partition_metadata 文件。

.hoodie_partition_metadata 文件包含了该分区的元数据信息,例如分区键、分区路径等。

3. 数据文件(Data File)

数据文件是 Hudi 表中实际存储数据的文件,通常采用 Apache Parquet 格式存储。每个数据文件都包含了数据记录,其中记录由多个列组成。列可以是原始类型(如整数和字符串)或复杂类型(如数组和嵌套结构)。

Hudi 核心概念

Copy-on-Write (写时复制)

  • Copy-on-Write 是 Hudi 最重要的概念之一。当 Hudi 写入数据时,它不会覆盖原有的数据,而是将新数据写入到新的文件中,然后通过元数据的方式将新旧数据进行关联,这种方式称为写时复制。这个过程保证了数据的一致性和可靠性。

Delta Stream

  • Delta Stream 是指数据的增量变化,Hudi 能够实时监控这些变化,并将它们存储为新的 Delta 文件。Delta Stream 可以实现多种格式的数据输入和输出,包括 Kafka、Flume、HDFS、S3 等。

Table

  • Table 是 Hudi 中数据存储的基本单元,每个 Table 都包含了一系列的数据文件和元数据文件。Table 可以支持多种数据格式,包括 Parquet、ORC 等。

Partition

  • Partition 是指将 Table 按照一定的规则划分为多个子集,每个子集称为一个 Partition。Partition 可以按照日期、地区等方式进行划分,以便更好地管理和查询数据。

Write Handle

  • Write Handle 是 Hudi 中用于写入数据的组件,它可以将数据写入到 Hudi Table 中,并将数据写入的过程进行优化。Write Handle 包括了多种优化技术,例如 Bloom Filter、Compaction 等。

Query Handle

  • Query Handle 是 Hudi 中用于查询数据的组件,它可以通过 SQL 或者 API 的方式查询数据。Query Handle 会自动将查询请求路由到正确的 Partition 和文件中,以便更快地检索数据。

Index

  • Index 是 Hudi 中用于优化数据查询性能的组件。它可以将数据中的某些字段进行索引,并将索引存储在内存中,以便更快地查询数据。

Hoodie Timeline

  • Hoodie Timeline 是 Hudi 中用于管理数据版本的组件。它可以将每个数据文件的元数据存储为一个时间轴,以便更好地跟踪数据的变化。Hoodie Timeline 还可以用于数据回滚和恢复操作。
http://www.yayakq.cn/news/152920/

相关文章:

  • 平原网站建设价格微信信公众号平台
  • 企业为什么网站建设怎么才能让自己做的网站上传到百度搜关键字可以搜到
  • 口碑好的江苏网站建设网站设计 线框图
  • 做五金的有哪些外贸网站南通开发区人才网
  • 如何做网站内容构架图网站备案号信息查询
  • php是网站开发语言吗国外采购网站大全
  • 基于html5的旅游网站的设计与实现网站里的动画效果
  • 和幼儿做网站自己的电脑做网站服务器 买的服务器 速度
  • 沈阳网站推广优化公司昭通市住房和城乡建设局网站
  • 淄博专业网站建设哪家专业网站建设技术是干嘛的
  • 手机网站刷排名海口免费自助建站模板
  • 中国建设银行招聘信息网站用asp做网站需要安装什么软件
  • 数据库网站建设欧洲卡一卡2卡3卡4卡
  • 淘客网站开发源代码建站网站加盟
  • 网站特效怎么做的学校网站建设 分工
  • 网站开发的需求分析教学视频深圳市国外网站建设服务机构
  • 福建省建设工程资格中心网站北京seo顾问
  • 谁有做网站比较厉害的杭州有哪些互联网公司
  • 乐都网站建设wordpress 制作app
  • ps里新建网站尺寸怎么做汽车网新车报价大全
  • 网站推广方式和手段企业管理方法
  • 装修网站免费王野天女明星
  • 专业网站设计学校西安建设工程交易信息网
  • 俄语网站推广学校专业建设规划
  • 腾讯建设网站视频视频视频大连今天最新通知
  • 做网站如何上传apk最美情侣免费视频
  • 网站设计团队发展大学生创新创业网站建设内容
  • 通辽建设网站软件工程就业方向和前景
  • 重庆公司网站做pc端网站一般多少钱
  • 网站转化路径wordpress tag_link