当前位置: 首页 > news >正文

昆山高端网站设计公司怎么在网站备案号码上加一个工信部链接地址

昆山高端网站设计公司,怎么在网站备案号码上加一个工信部链接地址,清河网站建设多少钱,西宁建设工程官方网站概述 目标: spark的工作原理spark数据处理通用流程rdd 什么是rddrdd 的特点 spark架构 spark架构相关进程spark架构原理 spark的工作原理 spark 的工作原理,如下图 图中中间部分是spark集群,也可以是基于 yarn 的,图上可以…

概述

目标:

  • spark的工作原理
  • spark数据处理通用流程
  • rdd
    • 什么是rdd
    • rdd 的特点
  • spark架构
    • spark架构相关进程
    • spark架构原理

spark的工作原理

spark 的工作原理,如下图
在这里插入图片描述

  • 图中中间部分是spark集群,也可以是基于 yarn 的,图上可以理解为sparkstandalone 集群,集群中有 6 个节点
  • 左边是spark的客户端节点,这个节点主要的任务是向spark集群提交任务,
  • 左边的 hdfs 是提交的任务所需要的数据源,当spark读取hdfs中的数据后,会将数据转化为rddrdd是弹性分布式数据集,是一个逻辑概念,在此,可以先理解为一个数据集合就可,这个rdd是具有分区特性的,如节点1节点2节点3,这样可以轻易的提高数据的并发处理能力
  • 接下来就可以对这rdd数据进行处理了,图中使用了,flatMap 函数,计算之后的结果还是一个带有分区的rdd,就是在节点4节点5节点6
  • 当处理到最后一步的时候是需要将数据存起来的,实际工作中,针对离线计算的,大部分的结果数据都是存储在hdfs上的,也可以存储在其它的存储介质中。

针对上面几条,可以总结出,spark处理数据的基本构成,如下图
在这里插入图片描述

后面 spark 代码中基本都是这三板斧

rdd

rddspark 中一个很重要的概念

什么是rdd

在实际工作中,rdd 通常通过 hadoop 上的文件,即 hdfs 文件进行创建,也可以通过程序中的集合来创建,rddspark 提供的核心抽象,全称为 Resillient Distributed Dataset ,即弹性分布式数据集

rdd 的特点

  1. 弹性:rdd 数据默认情况下是存储在内存中,但是在内存资源不足时,spark 也会自动将 rdd 数据写入磁盘
  2. 分布式: rdd 在抽象上来说是一种元素集合,它是被分区的,每个分区分布在集群中的不同节点上,从而让 rdd 中的数据可以被并行操作
  3. 容错性: rdd 最重要的特性就是提供了容错性,可以自动从节点失败中恢复过来,如果某个节点上的 rdd 分区,因为节点故障了,导致数据丢了,那么 rdd 会自动通过自己的数据来源重新计算该分区的数据

spark架构

下面熟悉一下 spark 架构相关的进程信息
注意: 在此是以 sparkstandalone 集群为例进行分析,其实在 spark standalone环境安装 中,成功后有查询对应的 进程 是否成功启动了

spark架构相关进程

  1. driver:编写的 spark 程序就在driver(进程)上,由 driver 进程负责执行,driver 进程所在的节点可以是spark 集群的某一个节点,或者就是提交任务的客户端节点,具体driver进程在哪个节点上启动,是由提交任务时指定的参数决定的
  2. master:集群的主节点中启动的进程,主要负责集群资源管理和分配,还有集群的监控等。
  3. worker:集群的从节点中启动的进程,主要负责启动其它进程来执行具体的数据处理和计算任务
  4. executor:此进程由worker 负责启动,主要为了执行数据处理和计算
  5. taks:是一个线程,由executor 负责启动,是真正干活的

spark架构原理

如下图来看一spark的架构原理
在这里插入图片描述

  1. spark的客户端机器上通过driver进程执行的spark代码,通过spark-submit脚本提交spark任务的时候driver进程就启动了。
  2. driver 启动之后,会做一些初始化操作,并找到集群的master 进程,对spark 程序进行注册
  3. master 收到 spark 程序注册成功之后,会向 worker 节点发送请求,进行资源调试和分配
  4. worker 收到 master 请求后,为任务启动 executor 进程,启动多少个,会根据配置来启动
  5. executor 启动之后会向 driver 进行注册,这样 driver 就能知道哪些 executor 在为它服务了
  6. driver 会根据对 rdd 定义的操作,提交一堆的 task(map,flatMap等) 去 executor 上执行

结束

spark 的工作与架构原理就介绍至此,如有问题,欢迎评论区留言。

http://www.yayakq.cn/news/776667/

相关文章:

  • 柳州网站建设找华仔千龙网站建设
  • cms网站群如何在网站做引流
  • 如何写网站开发需求文档电商会学着做网站呢
  • 关于小城镇建设网站快速排名怎么做
  • 免费网络短剧网站广告设计公司核心优势
  • 百度网站备案设计方案收费标准
  • 在百度怎么申请自己的网站湖北省建设局网站首页
  • 最好的开发网站建设wordpress下载服务器文件夹
  • 开发网站如何选需要注意什么好发信息网站建设
  • 淮安营销型网站建设网站建设费怎么做分录
  • 大英网站建设工作12306网站开发商
  • 太原网站搜索排名wordpress登陆死循环
  • 规范门户网站的建设和管理办法自己来建网站
  • vps如何创建网站中国十大电商公司
  • 网站建设推荐一个店铺的运营方案
  • 无版权视频素材网站网络营销的主要内容是什么
  • 高端网站建设济南兴田德润简介电话网站建设后端技术
  • 做网站要会哪些知识免费自学电商教程
  • 浙江省交通建设工程监督管理局网站新泰网络推广公司
  • 公司免费推广网站广州冼村很有钱吗
  • 我请网络公司做的网站上的图片被当广告拦截了_怎么回事怎么做自我介绍网站
  • 做综合类网站好不好沈阳关键词优化费用
  • 网站规划与网页设计第四版电子书网络营销成功案例有哪些2022
  • 网站被黑应该怎么做wordpress 使用 中文路径
  • 个人网站备案号被注销了开发一平方米多少钱
  • 安微省建设庁官方网站郑州免费网站建设哪家好
  • 电影网站建设需求分析做水处理药剂的公司网站
  • wordpress搭建淘客网站做网站用的符号
  • 海南营销网站建设黄骅贴吧房屋买卖
  • 海淀区网站搭建4399小游戏电脑版