当前位置: 首页 > news >正文

芜湖网站建设价格值得浏览的国外网站

芜湖网站建设价格,值得浏览的国外网站,.电子商务网站的开发原则包括,做视频网站要用到的服务器本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建 前言 使用ADB 或者数据湖,基本上绕不开一个架构“Medallion”, 它使得数据管理更为简单有效。ADB 通过…

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建

前言

使用ADB 或者数据湖,基本上绕不开一个架构“Medallion”, 它使得数据管理更为简单有效。ADB 通过把数据分为“金”,“银”,“铜” 三层来实现Medallion架构。同时搭配UC,使得medallion更加健壮,安全和合规。

除了Medallion, 还有一些概念如data warehouse, data lake, 和data lakehouse。

  • Data lake: 是一个中央存储库,以原始格式存储任意规模的结构化和非结构化数据。与传统存储相比,这样可以减少很多前期转换开销。其核心优势之一就是灵活性,另外还有对大量大数据处理工具的支持。
  • Data lakehouse:跟data lake的名字非常相似,在data lake中的数据,在展现给最终用户前,通常都需要进行处理。 但是data lake的目标是存储,而非处理。data warehouse可以提供处理,但需要预先范式化、模式化再存储,同时存储的量一般有限。基于这两种不足,最好的办法就是优势整合,保留data lake的强大存储功能和data warehouse的数据处理功能,从而出现了data lakehouse。
  • ETL/ELT:两者区别在于先转换然后存储(TL)还是先存储再转换(LT)。ETL 往往需要先转换成预定格式再存储,随着数据集成过程的量和速度要求,在大数据领域ETL非常容易出现性能瓶颈,且费用昂贵。而ELT如果搭配lakehouse,则可以很好地平衡性能与开销。

问题

上面提到了lakehouse和ELT 的好处,但是这更多集中于收集和存储,那么如何管理和组织数据呢?

传统的数据仓库环境,数据通过下图的流程完整数据准备。
在这里插入图片描述
在datalake中,数据以原始格式存储,但是实际上你需要对数据进行使用,而不是简单存储。这种几乎随意式的直接存储很难马上用于数据使用(主要是分析),因此还是需要进行清晰(clean),转换(transform)。

由于量大,分析复杂,传统的数据仓库处理方式如果直接应用在data lake上,会导致如时间久,资源消耗大,数据组织困难导致结果不准确等情况。这时候Medallion 架构就应运而生。

它为湖仓一体化而定制。主要目标是在从源到最终使用的过程中逐步增加结构和数据质量。

ADB Medallion

下图是来自于Databricks官网的架构图,Medallion的核心在于3个层(layer):Bronze,Silver, Gold, 也就是铜、银、金。 Medallion就是奖牌的意思。
在这里插入图片描述

Bronze (铜)

Bronze 层充当外部源系统的数据的初始登陆点。这层的数据反映了原始状态的源系统结构,并带有元数据信息,如加载日期/时间和进程 ID。这层的管理重点是变更数据捕获,支持源数据的历史存档,维护数据血缘,还有审计跟踪,并允许在必要时进行重新处理,而无需从源系统重新读取。

Silver (银)

下一层是 Silver 层。在这层中,来自 Bronze 层的数据经过一系列作,达到 一种叫做“Just-enough” 状态。提供包含基本业务实体、概念和事务的 “企业视图”。

Gold (金)

最后一层是 Gold 层。Gold 层中的数据通常被结构化到特定于主题领域的数据库中,以供使用。此层专用于报告,并采用非规范化、读取优化的数据模型,具有最少的联接。它是应用数据转换和质量规则的最终阶段。

在这三层里面, 铜是原始存储外加元数据信息,金是最终用于展示的数据集,跟传统的数据仓库类似。重点在于银这一层。

这一层是转换后的数据, 它存储了不同源系统数据转换成统一视图后的结果。但是之所以叫做“Just-enough”,是因为它又并不完全转换,而是最小转换,包含:

  1. 数据清洗,是识别和纠正数据集中的错误、不一致和不准确之处以提高其分析和可靠性的过程。这是数据准备过程中的关键步骤,通常在数据分析或集成之前执行。涉及的一些常见任务包括:删除重复项、更正拼写错误、标准化数据格式(尤其是日期和地址)、处理缺失值等。
  2. 数据验证:数据验证是通过各种验证技术确保数据准确、一致和可靠的过程。它通常包括根据已知的质量控制措施验证数据、确认数据符合公司数据治理策略、通过交叉引用不同的数据源或应用业务规则和逻辑来解决不一致问题、标准化和规范化数据以及处理异常值。
  3. 数据合规:数据合规是指确保数据符合特定标准、格式或要求的过程。它涉及转换和标准化数据,以使其与特定数据模型、架构或系统保持一致和兼容。
  4. 有目的地进行数据匹配:为了提供统一的企业视图,来自不同来源的数据最终必须进行整合和集成。为了使数据可整合,您必须将来自不同来源的数据汇集在一起,识别和确定不同数据集或来源的记录之间的关系,并将它们转换为一致且连贯的格式。

通过这些处理之后, silver中的数据已经变得有意义且可用于后续整合。但是一般来说,数据后进一步处理就不需要在这一层进行了,否则会出现过度预处理,最终使其成为了gold层。

Medallion 是一个设计模式,而不是数据模型,也就是说它更多是一个指引,然后在特定环境中(这主要指云环境)按需实现。比如用ADB+ADLS 来实现。

小结

介绍了什么是Medallion之后,接下来将使用ADB 来实现它。

http://www.yayakq.cn/news/470941/

相关文章:

  • 桂林做网站的公司哪家最好燃灯seo
  • 自己可以做微网站吗网页界面设计是什么
  • 做网站用jsp还是html网站强制qq弹窗代码
  • 湖南营销网站建设设计ps为什么做不了视频网站
  • 北京网站建设最便宜的公司哪家好国内重大新闻
  • 大连网站建设详细流程品牌vi设计升级
  • 襄阳哪里做网站北京信息
  • 专业做国际网站自适应网站开发教程
  • 头条新闻 免费下载旺道seo工具
  • 建筑网站起名网站未备案做seo会被k吗
  • 银行的网站怎么做国外哪些网站有黄图
  • 谭谭心怎么建设网站发布新闻稿
  • 蚌埠做网站公司app制作教程视频全集
  • 济南哪个网站建设最好黄冈网站建设收费
  • 神鹰网站建设公司网络销售的技巧和话术
  • 网站中二级导航栏怎么做网站建商城
  • 中小学图书馆网站建设wordpress 金融主题
  • 国外获奖flash网站linux国外网站吗
  • 目前做网站框架网站后期维护价格
  • 国外网站建设发展现状苏州小程序开发外包
  • 关于asp网站模板下载提供手机网站开发
  • 电脑记事本做网站医疗网站建设案例
  • 手机wap网站建设多少钱外贸网站特点
  • 代理注册公司网站模版利用网上菜谱做网站
  • 山东省建设项目备案证明网站wordpress 更改目录
  • 网站建设定制价格明细表产品包装设计创意
  • 重庆商业网站有哪些河北石家庄有什么好玩的地方
  • 素材动图网站做甜品台的网站
  • 做视频网站把视频放在哪里网络规划设计师报考多少钱
  • 宁夏枸杞网站建设方案网站开发与桌面应用开发