当前位置: 首页 > news >正文

哈尔滨市做网站公众号怎么制作红包封面

哈尔滨市做网站,公众号怎么制作红包封面,付银行的网站建设费的会计科目,建筑人才直聘网搜索引擎日志分析 要求: 读取文件转换成RDD,并完成: 打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转…

搜索引擎日志分析

要求:

读取文件转换成RDD,并完成:

  • 打印输出:热门搜索时间段(小时精度)Top3
  • 打印输出:热门搜索词Top3
  • 打印输出:统计黑马程序员关键字在哪个时段被搜索最多
  • 将数据转换为JSON格式,写出为文件

代码:

"""
综合案例
要求:读取文件转换成RDD,并完成:打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转换为JSON格式,写出为文件
"""
# 构建执行环境入口对象
import json
from pyspark import SparkConf, SparkContext
import osos.environ['PYSPARK_PYTHON'] = "D:/Python/Python311/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
conf.set('spark.default.parallelism', '1')
sc = SparkContext(conf=conf)# 读取文件转换成RDD,并完成:
rdd = sc.textFile("E:/百度网盘/1、Python快速入门(8天零基础入门到精通)/资料/第15章资料/资料/search_log.txt")
# print(rdd.collect())
# TOOP 需求1:热门搜索时间段(小时精度)Top3
# 1.1 取出全部的时间并转换为小时
# 1.2 转换为(小时,1)的二元元组
# 1.3 Key分组聚合Value
# 1.4 排序(降序)
# 1.5 取前三
# result1 = rdd.map(lambda x: x.split("\t")).\
#     map(lambda x: x[0][:2]).\
#     map(lambda x: (x, 1)).\
#     reduceByKey(lambda a, b: a + b).\
#     sortBy(lambda x: x[1], ascending=False, numPartitions=1).\
#     take(3)
# print("需求1的结果:", result1)
result1 = rdd.map(lambda x: (x.split("\t")[0][:2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求1的结果:", result1)# TOOP 需求2:热门搜索词Top3
# 2.1 取出全部的搜索词
# 2.2 (词,1)二元元组
# 2.3 分组聚合
# 2.4 排序
# 2.5 Top3
result2 = rdd.map(lambda x: (x.split("\t")[2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求2的结果:", result2)# TOOP 需求3:统计黑马程序员关键字在哪个时段被搜索最多
# 3.1 过滤内容,只保留黑马程序员关键字
# 3.2 转换为(小时,1)的二元元组
# 3.3 Key分组聚合Value
# 3.4 排序(降序)
# 3.5 取前1
result3 = rdd.map(lambda x: x.split("\t")).\filter(lambda x: x[2] == '黑马程序员').\map(lambda x: (x[0][:2], 1)).\reduceByKey(lambda a, b: a + b).\sortBy(lambda x: x[1], ascending=False, numPartitions=1).\take(1)
print("需求3的结果:", result3)# TOOP 需求4:将数据转换为JSON格式,写出为文件
# 4.1 转换为JSON格式的RDD
# 4.2 写出为文件
rdd.map(lambda x: x.split("\t")).\map(lambda x: {'time': x[0], 'user_id': x[1], 'key_word': x[2], 'rank1': x[3], 'rank2': x[4], 'url': x[5]}).\saveAsTextFile("D:/output_json")

 

 

 

http://www.yayakq.cn/news/705728/

相关文章:

  • 包头网站建设熊掌号做电子政务网站
  • 南宁做网站开发的公司有哪些如何根据仿站做网站
  • 门户网站的主要功能交易平台网站开发教程百度云
  • 求职招聘网站建设投标书做网站上市的公司
  • 渭南网站建设网站排名优化wordpress首页幻灯片重复显示
  • 网站建设人工智能开发华能招标采购电子商务平台
  • 成都网站建设 全美网站界面设计实训的意义
  • 东莞企业网站搭建制作公司宣传推广方案
  • 网站建设论坛fantodo深圳百度网站排名优化
  • 河南便宜网站建设价格低双语网站建设方案
  • 长春网站建设哪个公司好html网站模板 免费
  • h5自适应网站源码网站功能需求用什么做
  • 上海网站备案核验单状态查询永川做网站的公司
  • 淮安做网站 卓越凯欣seo全网营销公司
  • 如何做网站怎么赚钱在网上可以做宣传的有那些网站
  • 养老网站建设合同怎么建设自己网站首页
  • 找人做app网站做试试彩网站
  • 长春火车站在哪个街道做学校的网站推广发展前景
  • 台州网站建设咨询怎么做二手房网站
  • 自由室内设计师接单网站西安 网站 制作
  • 网站安全设计用wordpress制作网站模板
  • 禁止域名访问网站网站源代码购买
  • 网站开发怎么挣外快wordpress主题 路径
  • 一个网站开发北京今天出现什么情况了
  • 中国最大的做网站的公司网页制作软件
  • 推广网站的软件wordpress模版制作工具
  • 新手怎么学做网站重庆航运建设发展有限公司网站
  • 网站建设企业资质等级门户网站做等保需要备案哪些
  • 官方网站建设需要哪个部门审批石柱土家族网站建设
  • 网站怎么更换页面图片wordpress企业建站教程