当前位置: 首页 > news >正文

菠菜网站如何做推广霸州放心的网络建站

菠菜网站如何做推广,霸州放心的网络建站,百度竞价推广计划,中国建设银行网站首页u盾登入文章目录 零、本讲学习目标一、使用Spark SQL实现词频统计(一)数据源 - words.txt(二)创建Maven项目(三)添加依赖和构建插件(四)修改源目录名称(五)创建日志属…

文章目录

  • 零、本讲学习目标
  • 一、使用Spark SQL实现词频统计
    • (一)数据源 - words.txt
    • (二)创建Maven项目
    • (三)添加依赖和构建插件
    • (四)修改源目录名称
    • (五)创建日志属性文件
    • (六)创建词频统计单例对象
    • (七)启动程序,查看结果
    • (八)词频统计数据转化流程图

零、本讲学习目标

  1. 使用Spark SQL实现词频统计
  2. 使用Spark SQL计算总分与平均分
  3. 使用Spark SQL统计每日新增用户
  4. 使用Spark SQL实现分组排行榜
  5. 使用Spark SQL进行智慧交通数据分析

一、使用Spark SQL实现词频统计

(一)数据源 - words.txt

在这里插入图片描述

(二)创建Maven项目

  • 创建Maven项目 - SparkSQLWordCount
    在这里插入图片描述

(三)添加依赖和构建插件

  • pom.xml文件里添加依赖和构建插件
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>net.hw.wc</groupId><artifactId>SparkSQLWordCount</artifactId><version>1.0-SNAPSHOT</version><dependencies><dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>2.11.8</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>2.1.1</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>2.1.1</version></dependency></dependencies><build>        <plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-assembly-plugin</artifactId><version>3.3.0</version><configuration><descriptorRefs><descriptorRef>jar-with-dependencies</descriptorRef></descriptorRefs></configuration><executions><execution><id>make-assembly</id><phase>package</phase><goals><goal>single</goal></goals></execution></executions></plugin><plugin><groupId>net.alchim31.maven</groupId><artifactId>scala-maven-plugin</artifactId><version>3.3.2</version><executions><execution><id>scala-compile-first</id><phase>process-resources</phase><goals><goal>add-source</goal><goal>compile</goal></goals></execution><execution><id>scala-test-compile</id><phase>process-test-resources</phase><goals><goal>testCompile</goal></goals></execution></executions></plugin></plugins></build>
</project>

(四)修改源目录名称

  • 将源目录名由java改成scala
    在这里插入图片描述
  • pom.xml文件里,设置源目录
    在这里插入图片描述

(五)创建日志属性文件

  • 在resources目录里创建log4j.properties文件
    在这里插入图片描述
log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spark.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

(六)创建词频统计单例对象

  • 创建net.hw.wc包,在包里创建SparkSQLWordCount单例对象
    在这里插入图片描述
package net.hw.wcimport org.apache.spark.sql.{Dataset, SparkSession}/*** 功能:利用Spark SQL实现词频统计* 作者:华卫* 日期:2022年05月15日*/
object SparkSQLWordCount {def main(args: Array[String]): Unit = {// 设置HADOOP用户名属性,否则本地运行访问会被拒绝System.setProperty("HADOOP_USER_NAME", "root")// 创建或得到SparkSessionval spark = SparkSession.builder().appName("SparkSQLWordCount").master("local[*]").getOrCreate()// 读取HDFS上的单词文件val lines: Dataset[String] = spark.read.textFile("hdfs://master:9000/input/words.txt")// 显示数据集lines内容lines.show()// 导入Spark会话对象的隐式转换import spark.implicits._// 将数据集中的数据按空格切分并合并val words: Dataset[String] = lines.flatMap(_.split(" "))// 显示数据集words内容words.show()// 将数据集默认列名由value改为word,并转换成数据帧val df = words.withColumnRenamed("value", "word").toDF()// 显示数据帧内容df.show()// 基于数据帧创建临时视图df.createTempView("v_words")// 执行SQL分组查询,实现词频统计val wc = spark.sql("""| select word, count(*) as count|    from v_words group by word|    order by count desc|""".stripMargin)// 显示词频统计结果wc.show()// 关闭会话spark.close()}
}

(七)启动程序,查看结果

  • 运行SparkSQLWordCount单例对象
    在这里插入图片描述

(八)词频统计数据转化流程图

  • 文本文件,转化成数据集,再转化成数据帧,最后基于表查询得到结果数据帧
    在这里插入图片描述
http://www.yayakq.cn/news/902218/

相关文章:

  • 仿网站 涉及侵权吗wordpress主题安装不一样
  • 虚拟主机做视频网站可以吗丹阳是哪个省
  • 可以访问国外网站的dns石家庄开发网站
  • 常州做网站公司排名嵌入式软件开发面试
  • 深圳网站建设及推广服务公司上海网页设计制作培训
  • 私自做彩票网站销售犯法么岗顶做网站公司
  • 免费网站模块哈尔滨网站制作方案
  • 网站建设 移动端 和 PC端找外国男人做老公网站
  • 北京丰台网站建设公司平台网站开发多少钱
  • 做明星粉丝网站wordpress platinum seo 插件
  • 个人网站可以做资讯小说类大学生文创产品设计
  • 那些公司做网站比较厉害免费app制作平台下载
  • 珠海市官网网站建设价格怎么做网站一张图
  • 网站只能用ip访问网站wordpress自定义样式
  • 做遗嘱的网站有哪些自己建一个网站难吗
  • 网站找建站公司网页微信聊天电脑有记录吗
  • 荷兰网站开发价格wordpress杰奇
  • 池州网站建设网站建设安徽网站建设公司排名
  • 门户网站代码亚马逊网站的建设和维护
  • 冷门行业做网站的优势做网站怎么排版
  • 虚拟主机网站建设步骤?中卫网站推广优化
  • 网站建设公司-跨界鱼科技优自己有域名服务器怎样建设网站
  • 广东网站建站公司网站建设单位有哪些方面
  • 定制高端网站建设wordpress查看权限
  • 阿里巴巴网站的营销策略台州网站制作系统分析怎么写
  • 建设网站东莞做网站发房源综合语录
  • 天津网站建设服务购物网站建设精英
  • 网站开发时间企点营销软件
  • 江西哪里可以做企业网站福州关键词seo
  • 成都哪家做网站的最好网站首页seo关键词布局