当前位置: 首页 > news >正文

广州白云网站建设wordpress产品批量导入

广州白云网站建设,wordpress产品批量导入,安蓉建设总公司网站,设计装修网站大全前言 本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据技术体系 思维导图 正文 对 Flink 这种以流为核心的分布式计…

前言

本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见大数据技术体系


思维导图

在这里插入图片描述


正文

对 Flink 这种以流为核心的分布式计算引擎而言,数据流是核心数据抽象,表示一个持续产生的数据流,与 Apache Beam 中的 PCollection 的概念类似。

在 Flink 中使用 DataStream 表示数据流, DataStream 是一种逻辑概念,并不是底层执行的概念。

DataStream 上定义了常见的数据处理操作 API (转换为 Transtormation ),同时也具备自定义数据处理两数的能力,当 DataStream 提供的常见操作不满足需求的时候,可以自定义数据处理的逻辑。

DataStream 体系如下图所示。

在这里插入图片描述

DataStreamSource 本身就是一个 DataStream。DataStreamSink 、 AsyncDatastream 、 BroadcastDataStream 、 BroadcastConnectedDataStream 、 QueryableDataStream 都是对一般 DataStream 对象的封装,在 DataStream 实现特定的功能,接下来对这些 DataStream 一一进行介绍。

  1. DataStreamFlink 数据流的核心抽象,其上定义了对数据流的一系列操作,同时也定义了与其他类型 DataStream 的相互转换关系。 每个 DataStream 都有一个 Transformation 对象,表示该 DataStream 从上游的 DataStream 使用该 Transformation 而来。
  2. DataStreamSource 是 DataStream 的起点, DataStreamSource 在 StreamExecutionEnvironment 中创建,由 StreamExecutionEnvironment.addSourcce ( SourceFunction )创建而来,其中 SourceFunction 中包含了 DataStreamSource 从数据源读取数据的具体逻辑。
  3. DataStreamSink 数据从 DatasourceStream 中读取,经过中问的一系列处理操作,最终需要写出到外部存储,通过 DataStream.addSink(sinkFunction)创建而来,其中 SinkFunction 定义了写出数据到外部存储的具体逻辑。
  4. KeyedStream用来表示根据指定的 key 进行分组的数据流。 一个 keyedStream 可以通过调用 DataStream.keyBy()来获得。 而在 KeyedStream 上选行任何 Transformation 都将转变回 DataStream 。 在实现中, KeyedStream 把 key 的信息写人了 Transformation 中。 每条记录只能访问所属 key 的状态,其上的聚合两数可以方便地操作和保存对应 key 的状态。
  5. WindowedStream & AllWindowedStream WindowedStream 代表了根据 key 分组且基于 WindowAssigner 切分窗口的数据流。 所以 WindowedStream 都是从 KeyedStream 衍生而来的,在 WindowedStream 上进行任何 Transformation 也都将转变回 DataStream
  6. JoinedStreams & CoGroupedStreams Join 是 CoGroup 的一种特例, JoinedStreams 底层使用 CoGroupedStreams 来实现。

Join 和 CoGroup 两者的区别如下:CoGrouped 侧重的是 Group ,对数据进行分组,是对同一个 key 上的两组集合进行操作,可以编写灵活的代码来实现特定的业务功能。 Join 侧重的是数据对,对同一个 key 的每一对元素进行操作。 CoGroup 更通用,但因为 Join 是数据库上常见的操作,所以在 CoGroup 基础上提供 Join 的特性。 JoinGroup 和 CoGroup 两者都是对特续不断地产生的数据做运算,但是又不能无限地在内存中持有数据,对所有的数据进行 Join 的笛卡儿积操作理论上不可行(理论上内存不足可以刷出到磁盘,反复的硬盘读写会导致性能变得很差),所以在底层上,两者都基于 Window 实现。

  1. ConnectedStreams 表示两个数据流的组合,两个数据流可以类型一样,也可以类型不一样。 ConnectedStreams 适用于两个有关系的数据流的操作,共享 State。 一种典型的场景是动态规则数据处理。 两个流中一个是数据流,一个是随着时间更新的业务规则,业务规则流中的规则保存在 State 中,规则会持续更新 State。 当数据流中的新数据到来时,使用保存在 State 中的规则进行数据处理。
  2. BroadcastStream & BroadcastConnectedStream BroadcastStream 实际上是对一个普通 DataStream 的封装,提供了 DataStream 的广播行为。 BroadcastConnectedStream 一般由 DataStream / KeyedDataStream 与 BroadcastStream 连接而来,类似于 ConnectedStream 。
  3. IterativeStream 是对一个 DataStream 的迭代操作,从逻辑上来说,包含 IterativeStream 的 Dataflow 是一个有向有环图,在底层执行层面上, Flink 对其进行了特殊处理。
  4. AsyncDataStream 是个工具,提供在 DataStream 上使用异步函数的能力。
http://www.yayakq.cn/news/81708/

相关文章:

  • 最具口碑的企业网站建设更改wordpress主题
  • 小白如何做网站网站建设公司小江
  • 简单的英文网站模板合肥seo排名公司
  • 效果图网站推荐大全面包砖wordpress设置字体大小
  • 石油化工工程建设人才招聘网站专业网站开发软件
  • app开发制作平台网站建设长春建站企业
  • 运城网站建设网站中华室内设计网官网
  • 济南自适应网站建设便宜网站建设公司哪家好
  • 百度网站 收录网站联系我们的地图怎么做的
  • 官方网站制作思路网页设计app软件
  • 武昌做网站公司电话怎么用照片制作小视频
  • Wordpress网格插件seo网络营销招聘
  • 大亨网站开发网站系统说明书
  • 个人网站可以做推广不哪里有配音的网站
  • 旅游网站规划设计与建设企业营销网站开发建设专家
  • 网站建设 实施计划东平企业建站公司
  • 浙江网站建设设计室内设计公司图片
  • 英文网站建设电话咨询求推荐在哪个网站做德语翻译员
  • 设计网站设计网站源码上传
  • 网站开发语言查看器域名 和网站有什么区别吗
  • 甘肃省建设部网站首页淘宝站外网站可以做吗
  • 深圳网站建设手机网站建设wordpress悬浮联系表
  • 网站制作公司的网站wordpress diy
  • 洛阳市新区建设投资有限公司网站《网站推广策划》
  • 中国做投资的网站广告公司怎么找客户资源
  • 做cpa没有网站怎么办建设银行重置网站查询密码
  • 甘肃省住房和建设厅网站服务中心wordpress不写标题发布
  • 企业网站官网体育器材网站建设方案
  • 网站开发vs设计报告江苏省华建建设股份有限网站
  • 南宁百度网站公司电话制作视频app