当前位置: 首页 > news >正文

大型做网站的公司有哪些国外域名免费注册

大型做网站的公司有哪些,国外域名免费注册,内蒙古网站建设百度,神箭手wordpress面试题来源: 《大数据面试题 V4.0》 大数据面试题V3.0,523道题,679页,46w字 可回答:1)Spark Streaming和Flink的区别 问过的一些公司:杰创智能科技(2022.11),阿里蚂蚁(2022.11)&…

面试题来源:

《大数据面试题 V4.0》

大数据面试题V3.0,523道题,679页,46w字

可回答:1)Spark Streaming和Flink的区别

问过的一些公司:杰创智能科技(2022.11),阿里蚂蚁(2022.11),阿里云(2022.10)(2019.03),携程(2022.10),银联(2022.10),顺丰(2022.09)(2022.05),贝壳(2022.09),美团(2022.09),字节(2022.08)x2(2022.05)(2022.04)(2021.10)(2021.08),兴金数金(2022.08),星环科技(2022.07),西安华为实习(2022.05),小红书(2022.04),欢聚(2021.09),蔚来(2021.09),百度提前批(2021.08),网易严选(2021.08)(2019.08),字节社招(2021.05),字节实习(2021.03),中信银行信用卡中心(2020.11),招银网络(2020.09),转转(2020.09),美团优选社招(2020.09)x2,触宝(2020.09),京东(2020.08),网易(2020.08)(2018.11),竞技世界(2020.08),趋势科技(2020.08),美团实习(2020.04),华为实习(2020.04),美团(2020.04),快手(2020.03),爱奇艺(2020.03),蘑菇街实习(2020.03),嘉云数据(2020.01),360社招(2020.01),阿里(2018.11)

参考答案:

1、编程模型方面

Spark基于批处理模型,将连续的数据流划分成一系列的微批处理(batch),并在每个微批处理中执行Spark RDD操作。因此,它采用了与Spark相同的编程模型,允许开发人员使用Scala、Java或Python进行编程。

Flink则基于数据流模型,数据以流的形式输入和输出,支持连续数据处理和有限数据处理。开发人员可以使用Flink提供的DataStream API编写处理逻辑,这些API提供了类似于Spark RDD的转换和操作。

2、数据处理模式方面

Spark将数据流划分成微批处理,并在每个微批处理中执行一组操作,因此它是一个基于“微批”(micro-batch)的引擎。这意味着在处理每个微批处理时,Spark Streaming会等待所有数据到达批处理,因此会存在一定的延迟,延迟是秒级。

Flink则是一个基于“事件时间”(event time)的引擎。它支持流式处理和批处理,可以根据事件时间对数据进行有序处理,避免了由于乱序数据引起的问题。因此,Flink处理数据时可以保证更低的延迟和更高的准确性,延迟能够达到毫秒级。

3、架构模型方面

Spark Streaming在运行时的主要角色包括:Master、Worker、Driver、Executor, Flink 在运行时主要包:Jobmanager、Taskmanager 和 Slot。

4、任务调度

Spark Streaming连续不断的生成微小的数据批次,构建有向无环图DAG,Spark Streaming会依次创DStreamGraph、JobGenerator、JobScheduler。

Flink 根据用户提交的代码生成 StreamGraph,经过优化生成 JobGraph,然后提交给JobManager 进行处理, JobManager 会根据 JobGraph 生成 ExecutionGraph,ExecutionGraph 是 Flink 调度最核心的数据结构,JobManager 根据 ExecutionGraph 对 Job 进行调度。

5、时间机制

Spark Streaming支持的时间机制有限,只支持处理时间。

Flink支持了流处理程序在时间上的三个定义:处理时间、事件时间、注入时间。同时也支持watermark机制来处理滞后数据。

6、容错机制

对于Spark Streaming任务,可以设置Checkpoint,然后假如发生故障并重启,可以从上次Checkpoint之处恢复,但是这个行为只能使得数据不丢失,可能会重复处理,不能做到恰好一次处理语义。利用Spark Streaming的direct方式与Kafka可以保证数据输入源的,处理过程,输出过程符合Exactly Once。

Flink则使用两阶段提交协议来保证Exactly Once。

7、数据方面

在Flink的世界观中,一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。流处理的特点是无界、实时, 无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。

在Spark的世界观中,一切都是由批次组成的,离线数据是一个大批次,而实时数据是由一个一个无限的小批次组成的。批处理的特点是有界、持久、大量,非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。

8、应用场景方面

Flink的延迟是毫秒级别,而Spark Streaming的延迟是秒级延迟。

Flink更适合实时流数据处理和事件驱动应用。它是专门设计用于流式数据处理的框架,可以对实时数据流进行高效的计算和处理。

Spark最初是为批处理而设计的,它非常适合对大规模的数据集进行批处理分析,还通过其SQL查询功能提供快速的交互式查询。

Spark Structured Streaming支持实时流处理,但相对于Flink,在处理延迟和状态管理方面可能稍逊一些。

http://www.yayakq.cn/news/93208/

相关文章:

  • wordpress多站用户用照片做的ppt模板下载网站好
  • 网站在网站网站在哪里找到的阿里云域名注册及备案
  • 营销网站建设收费一句话宣传自己的产品
  • 成都网站注册如何在百度推广
  • 两学一做网站是多少钱企业网络管理 网站开发与运营
  • 网站搭建网站制作WordPress文章按钮
  • 建设银行企业网站无法打印回单邢台做网站的价格究竟多少钱?
  • dede修改网站密码成都市住房与城乡建设厅网站
  • 合肥制作网站哪家好黄山网站建设方案
  • 设计网站需要什么条件网络安全企业
  • 江苏港口建设费申报网站专业网站建设设计装饰
  • 权重6网站怎么做网站建设网络推广外包服务商
  • 本地网站可以做吗?清控人居建设集团网站
  • 外文网站搭建公司点击图片跳转到网站怎么做链接
  • 蚌埠市重点工程建设管理局网站企业网站建设东莞
  • 网站开发逻辑图怎么进入企业的网站
  • 百度网站诊断各类微网站建设
  • 凯里网站建设公司哪家好河南省城乡住房建设厅网站首页
  • 网站建设平台汉龙五莲网站建设报价
  • 怎么找淘宝客网站漳州网络科技有限公司
  • 嘉伟网络智能建站池州最好的网站建设
  • 济南网站制作哪家好炫酷的网页特效
  • 网站建设计划书模板网站用什么软件seo排名优化
  • 天津企业网站建设郑州设计院排名
  • 网站知识win7 asp.net网站架设
  • 互动网站建设阿克苏网站建设公司
  • 自助建站百度网站如何自己做优化
  • 个人相册网站建设报告大连网站建设主页
  • 网站代码如何优化广州开发区城市更新局
  • 怎么通过网站打广告生产erp管理系统app