当前位置: 首页 > news >正文

ps做产品的网站网站设计说明

ps做产品的网站,网站设计说明,暴雪国服,中国室内设计网欧式Spark 磁盘作用磁盘作用性能价值失败重试ReuseExchangeSpark 导航 磁盘作用 临时文件、中间文件、缓存数据,都会存储到 spark.local.dir 中 在 Shuffle Map 时, 当内存空间不足,就会溢出临时文件存储到磁盘上溢出的临时文件一起做归并计算…

Spark 磁盘作用

  • 磁盘作用
  • 性能价值
    • 失败重试
    • ReuseExchange

Spark 导航

磁盘作用

临时文件、中间文件、缓存数据,都会存储到 spark.local.dir

  • 在 Shuffle Map 时, 当内存空间不足,就会溢出临时文件存储到磁盘上
  • 溢出的临时文件一起做归并计算,得到 Shuffle 中间文件存储到磁盘上
  • 缓存分布式数据集 : DISK 的存储模式,会把内存中放不下的数据缓存到磁盘

在这里插入图片描述

性能价值

spark.local.dir 配置到 SDD 或访问高效的存储系统

磁盘复用 :

  • 给执行性能带来更好的提升
  • 磁盘复用 : Shuffle Write 产生的中间文件被多次利用

失败重试

一旦某个计算环节出错,就会触发失败重试。失败重试的触发点是距离最新的 Shuffle 的中间文件

当 RDD4 的计算任务失败时,会从 RDD4 向前回溯,回溯到 RDD3 (RDD2 输出的中间文件 ) ,并重新开始计算

在这里插入图片描述

ReuseExchange

ReuseExchange 是 Spark SQL 优化一种 : 相同或相似的物理计划能共享 Shuffle 中间文件

ReuseExchange 机制的触发条件:

  • 多个查询所依赖的分区规则要与 Shuffle 中间数据的分区规则保持一致
  • 多个查询所涉及的字段(Attributes)要保持一致

在这里插入图片描述

统计不同用户的 PV(Page Views,页面浏览量)、UV(Unique Views,网站独立访客),并把两项统计结果合并:

//版本1:分别计算PV、UV,然后合并
// Data schema (userId: String, accessTime: Timestamp, page: String)
val filePath: String = _
val df: DataFrame = spark.read.parquet(filePath)val dfPV: DataFrame = df.groupBy("userId").agg(count("page").alias("value"))
val dfUV: DataFrame = df.groupBy("userId").agg(countDistinct("page").alias("value"))val resultDF: DataFrame = dfPV.Union(dfUV)
// Result样例
| userId | metrics | value |
| user0 | PV | 25 |
| user0 | UV | 12 |

文件扫描/Shuffle 两次 :

在这里插入图片描述

以 userId 为分区 ,调用 repartition :

//版本2:分别计算PV、UV,然后合并
// Data schema (userId: String, accessTime: Timestamp, page: String)
val filePath: String = _
val df: DataFrame = spark.read.parquet(filePath).repartition($"userId")val dfPV: DataFrame = df.groupBy("userId").agg(count("page").alias("value"))
val dfUV: DataFrame = df.groupBy("userId").agg(countDistinct("page").alias("value"))val resultDF: DataFrame = dfPV.Union(dfUV)
// Result样例
| userId | metrics | value |
| user0 | PV | 25 |
| user0 | UV | 12 |

ReuseExchange :

  • 数据源只需扫描一遍
  • Shuffle 也只发生一次

在这里插入图片描述

http://www.yayakq.cn/news/340373/

相关文章:

  • 作业提交免费网站在线做拓扑图的网站
  • 贵阳市建设局网站我买了一个域名怎么做网站
  • 做网站排版用什么软件成都的科技公司有哪些
  • vc6.0做网站100个最全的免费网站
  • 水果网站建设mt4网站建设
  • 网站做seo收录线上销售平台都有哪些
  • 宁波制作网站软件高端品牌网站建设兴田德润在哪儿
  • 想做网站找哪个公司好专门做设计的网站有哪些
  • 做长老环的网站金融企业类网站模板
  • 鸭梨网站建设图门市建设局网站
  • 做网页兼职网站开发一个外卖app需要多少钱
  • 动力网站建设网站后台打不开了怎么办
  • 哈尔滨自助建站郑州市发布
  • 邯郸网站制作找谁筑成建设集团网站
  • seo品牌优化百度资源网站推广关键词排名门户类网站什么意思简单
  • 基于无网站网络营销的问题福州网站开发
  • 佛山新网站建设市场互助平台网站建设
  • 新手学做网站 pdf公司怎么建设网站首页
  • 揭阳网站制作怎样湛江做网站建设
  • 做网站的叫什么学技术网站
  • 品牌网站建设小7蝌蚪高淳seo外包公司
  • win7云主机怎么做网站优秀ppt作品范例
  • 怎样建网站宣传产品个人网站如何获得流量
  • 九度企业网站推广软件企业展示网站开发
  • 如何做网站alexa排名互联网公司排名 中国
  • wordpress管理网站360免费建站永久免费
  • wordpress 音乐站博客网站建设方案书
  • 用织梦做的网站下载地址景安免费虚拟主机
  • 低价网站建设浩森宇特个人网页设计实训报告
  • 做淘宝客网站详细步骤施工企业质量管理应遵循的原则