当前位置: 首页 > news >正文

网站建设伍金手指下拉6上海本地企业

网站建设伍金手指下拉6,上海本地企业,做电影网站怎么挣钱,wordpress 摄影 中文第1章 数据仓库概念 数据仓库#xff08;DW#xff09;: 为企业指定决策#xff0c;提供数据支持的#xff0c;帮助企业#xff0c;改进业务流程#xff0c;提高产品质量等。 DW的输入数据通常包括#xff1a;业务数据#xff0c;用户行为数据和爬虫数据等 ODS: 数据… 第1章 数据仓库概念 数据仓库DW: 为企业指定决策提供数据支持的帮助企业改进业务流程提高产品质量等。 DW的输入数据通常包括业务数据用户行为数据和爬虫数据等 ODS:  数据备份 DWD数据清洗 DWS:  预先聚合 ADS:  统计数据 何为数仓DW Data warehouse可简写为DW或者DWH数据仓库是在数据库已经大量存在的情况下它是一整套包括了etl、调度、建模在内的完整的理论体系。 数据仓库的方案建设的目的是为前端查询和分析作为基础主要应用于OLAPon-line Analytical Processing支持复杂的分析操作侧重决策支持并且提供直观易懂的查询结果。目前行业比较流行的有AWS RedshiftGreenplumHive等。 数据仓库并不是数据的最终目的地而是为数据最终的目的地做好准备这些准备包含清洗、转义、分类、重组、合并、拆分、统计等 主要特点 面向主题 操作型数据库组织面向事务处理任务而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面一个主题通过与多个操作型信息系统相关。 集成 需要对源数据进行加工与融合统一与综合在加工的过程中必须消除源数据的不一致性以保证数据仓库内的信息时关于整个企业的一致的全局信息。关联关系 不可修改 DW中的数据并不是最新的而是来源于其他数据源数据仓库主要是为决策分析提供数据涉及的操作主要是数据的查询与时间相关 处于决策的需要数据仓库中的数据都需要标明时间属性  与数据库的对比 DW专门为数据分析设计的涉及读取大量数据以了解数据之间的关系和趋势数据库用于捕获和存储数据为何要分层 数据仓库中涉及到的问题 为什么要做数据仓库为什么要做数据质量管理为什么要做元数据管理数仓分层中每个层的作用是什么 在实际的工作中我们都希望自己的数据能够有顺序地流转设计者和使用者能够清晰地知道数据的整个声明周期比如下面左图。 但是实际情况下我们所面临的数据状况很有可能是复杂性高、且层级混乱的我们可能会做出一套表依赖结构混乱且出现循环依赖的数据体系比如下面的右图。 为了解决我们可能面临的问题需要一套行之有效的数据组织、管理和处理方法来让我们的数据体系更加有序这就是数据分层。数据分层的好处 清晰数据结构让每个数据层都有自己的作用和职责在使用和维护的时候能够更方便和理解复杂问题简化将一个复杂的任务拆解成多个步骤来分步骤完成每个层只解决特定的问题统一数据口径通过数据分层提供统一的数据出口统一输出口径减少重复开发规范数据分层开发通用的中间层可以极大地减少重复计算的工作  数据分层 每个公司的业务都可以根据自己的业务需求分层不同的层次目前比较成熟的数据分层数据运营层ODS、数据仓库层DW、数据服务层ADS(APP)。 数据运营层ODS 数据运营层Operation Data Store 数据准备区也称为贴源层。数据源中的数据经过抽取、洗净、传输也就是ETL过程之后进入本层。该层的主要功能 ODS是后面数据仓库层的准备区为DWD层提供原始数据减少对业务系统的影响 在源数据装入这一层时要进行诸如去噪例如有一条数据中人的年龄是 300 岁这种属于异常数据就需要提前做一些处理、去重(例如在个人资料表中同一 ID 却有两条重复数据在接入的时候需要做一步去重)、字段命名规范等一系列操作。 但是为了考虑后续可能需要追溯数据问题因此对于这一层就不建议做过多的数据清洗工作原封不动地接入原始数据也可以根据业务具体分层的需求来做。 这层的数据是后续数据仓库加工数据的来源。数据来源的方式 业务库 经常会使用sqoop来抽取例如每天定时抽取一次。实时方面可以考虑用canal监听mysql的binlog实时接入即可。 埋点日志 日志一般以文件的形式保存可以选择用flume定时同步可以用spark streaming或者Flink来实时接入kafka也OK 消息队列即来自ActiveMQ、Kafka的数据等。   数据仓库层 数据仓库层从上到下又可以分为3个层数据细节层DWD、数据中间层DWM、数据服务层DWS。 数据细节层DWD 数据细节层data warehouse detailsDWD(数据清洗/DWI) 该层是业务层和数据仓库的隔离层保持和ODS层一样的数据颗粒度主要是对ODS数据层做一些数据的清洗和规范化的操作比如去除空数据、脏数据、离群值等。 为了提高数据明细层的易用性该层通常会才采用一些维度退化方法将维度退化至事实表中减少事实表和维表的关联。 数据中间层DWM 数据中间层Data Warehouse MiddleDWM 该层是在DWD层的数据基础上对数据做一些轻微的聚合操作生成一些列的中间结果表提升公共指标的复用性减少重复加工的工作。   简答来说对通用的核心维度进行聚合操作算出相应的统计指标 数据服务层DWS 数据服务层Data Warehouse ServiceDWS(宽表-用户行为轻度聚合) 该层是基于DWM上的基础数据整合汇总成分析某一个主题域的数据服务层一般是宽表用于提供后续的业务查询OLAP分析数据分发等。 一般来说该层的数据表会相对较少一张表会涵盖比较多的业务内容由于其字段较多因此一般也会称该层的表为宽表。 用户行为轻度聚合对DWD主要对ODS/DWD层数据做一些轻度的汇总。   数据应用层ADS 数据应用层Application Data ServiceADS(APP/DAL/DF)-出报表结果 该层主要是提供给数据产品和数据分析使用的数据一般会存放在ES、Redis、PostgreSql等系统中供线上系统使用也可能存放在hive或者Druid中供数据分析和数据挖掘使用比如常用的数据报表就是存在这里的。 事实表 Fact Table 事实表是指存储有事实记录的表比如系统日志、销售记录等。事实表的记录在不断地增长比如电商的商品订单表就是类似的情况所以事实表的体积通常是远大于其他表。   维表层DimensionDIM 维度表Dimension Table或维表有时也称查找表Lookup Table是与事实表相对应的一种表它保存了维度的属性值可以跟事实表做关联相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。维度表主要是包含两个部分 高基数维度数据一般是用户资料表、商品资料表类似的资料表数据量可能是千万级或者上亿级别低基数维度数据一般是配置表比如枚举字段对应的中文含义或者日期维表等数据量可能就是个位数或者几千几万。   临时表TMP 每一层的计算都会有很多临时表专设一个DWTMP层来存储我们数据仓库的临时表 数据集市 狭义ADS层 广义上指hadoop从DWD DWS ADS 同步到RDS的数据 数据集市Data Mart也叫数据市场数据集市就是满足特定的部门或者用户的需求按照多维的方式进行存储包括定义维度、需要计算的指标、维度的层次等生成面向决策分析需求的数据立方体。 从范围上来说数据是从企业范围的数据库、数据仓库或者是更加专业的数据仓库中抽取出来的。数据中心的重点就在于它迎合了专业用户群体的特殊需求在分析、内容、表现以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。   带有数据集市的数据仓储结构 区别数据仓库 数据集市就是企业级数据仓库的一个子集它主要面向部门级业务并且只面向某个特定的主题。为了解决灵活性与性能之间的矛盾数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。 理论上讲应该有一个总的数据仓库的概念然后才有数据集市。实际建设数据集市的时候国内很少这么做。国内一般会先从数据集市入手就某一个特定的主题比如企业的客户信息先做数据集市再建设数据仓库。数据仓库和数据集市建立的先后次序之分是和设计方法紧密相关的。而数据仓库作为工程学科并没有对错之分。 在数据结构上数据仓库是面向主题的、集成的数据的集合。而数据集市通常被定义为星型结构或者雪花型数据结构数据集市一般是由一张事实表和几张维表组成的。   ETL ETL Extract-Transform-Load用于描述将数据从来源端经过抽取、转换、加载到目的端的过程。 宽表 含义指字段比较多的数据库表。通常是指业务主体相关的指标、纬度、属性关联在一起的一张数据库表。 特点 宽表由于把不同的内容都放在同一张表宽表已经不符合三范式的模型设计规范 坏处数据有大量冗余好处查询性能的提高和便捷 宽表的设计广泛应用于数据挖掘模型训练前的数据准备通过把相关字段放在同一张表中可以大大提供数据挖掘模型训练过程中迭代计算的消息问题。   主题Subject 是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念每一个主题基本对应一个宏观的分析领域。在逻辑意义上它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域因此这个数据仓库应用的主题就是“销售分析”。 第2章 项目需求及架构设计 2.1 项目需求分析 1采集平台 (1) 用户行为数据采集平台搭建。 2业务数据采集平台搭建 2离线需求 电商离线指标体系.xlsx 3) 实时需求 电商实时指标体系.xlsx 技术选型 技术选型主要考虑因素 数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。 2.2.3框架版本的选型 框架发行版本选型 第3章  用户行为日志 3.1 用户行为日志概述 3.2 用户行为日志内容 本项目收集和分析的用户行为信息主要有页面浏览记录、动作记录、曝光记录、启动记录和错误记录。 页面浏览记录  动作记录 曝光记录 启动记录 错误记录 3.3 用户行为日志格式 日志结构   页面日志  启动日志 3.3.1 页面日志 3.3.2 启动日志 此博文为学习汇总多为学习课程视频以及相关博客中的资料汇集而成。若有不妥请及时联系。
http://www.yayakq.cn/news/2106/

相关文章:

  • 东莞seo网站推广建设php开发一个企业网站价格
  • 自己做视频网站会不会追究版权营销推广工作内容
  • 企业网站能起到什么作用网站建设公司推荐 金石下拉
  • 网站宣传夸大处罚wordpress 关闭邮件
  • 用wordpress建站效果怎么样建设网站技术标准
  • 做平面设计的网站有哪些东莞市路桥所
  • 设计网站页面好处温州英文seo
  • php网站开发速成网站地图做关键词排名
  • 刚刚做的网站怎么排名wordpress栏目更改无法显示
  • 网站建设备案 优帮云中国人在线观看免费高清
  • 地方网站系统谷歌云 wordpress
  • 宁波网站建设公司费用价格建立个人网站的目的
  • 域名注册商网站广告公司出售家具 税率
  • 品牌网站建设推荐大蝌蚪羊坊店网站建设
  • 网站建设卩金手指科杰十四劳务公司logo设计图片
  • 电脑制作网站用哪个软件建设新北川网站
  • 站长之家关键词挖掘工具陕西百度公司
  • 宁波建网站一站式服务黄冈网站推广
  • 中英文免费网站建设建设小型网站价钱
  • 厦门北京网站建设python做网站教程
  • 图书馆网站建设总结不重名的建筑公司名字
  • 云南热搜科技做网站不给源码太原建站培训
  • 慕课网站开发与实现微官网 wordpress
  • 个人做理财网站单位如何建设网站
  • 郑州做网站的企业导航类主题 wordpress
  • 阿里云上怎么做网页网站百度网盘下载的文件在哪
  • 简约个人网站欣赏wordpress+dux使用
  • 不上此网站枉做男人创可贴设计网
  • 视频制作素材网站护肤品网站模板
  • 电商网站设计教程dw软件做的网站怎么发到网上