当前位置: 首页 > news >正文

网站开发怎么找客户关于宠物的网站网页设计

网站开发怎么找客户,关于宠物的网站网页设计,wordpress圆角插件,网站后台拿shell搜索引擎日志分析 要求: 读取文件转换成RDD,并完成: 打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转…

搜索引擎日志分析

要求:

读取文件转换成RDD,并完成:

  • 打印输出:热门搜索时间段(小时精度)Top3
  • 打印输出:热门搜索词Top3
  • 打印输出:统计黑马程序员关键字在哪个时段被搜索最多
  • 将数据转换为JSON格式,写出为文件

代码:

"""
综合案例
要求:读取文件转换成RDD,并完成:打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转换为JSON格式,写出为文件
"""
# 构建执行环境入口对象
import json
from pyspark import SparkConf, SparkContext
import osos.environ['PYSPARK_PYTHON'] = "D:/Python/Python311/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
conf.set('spark.default.parallelism', '1')
sc = SparkContext(conf=conf)# 读取文件转换成RDD,并完成:
rdd = sc.textFile("E:/百度网盘/1、Python快速入门(8天零基础入门到精通)/资料/第15章资料/资料/search_log.txt")
# print(rdd.collect())
# TOOP 需求1:热门搜索时间段(小时精度)Top3
# 1.1 取出全部的时间并转换为小时
# 1.2 转换为(小时,1)的二元元组
# 1.3 Key分组聚合Value
# 1.4 排序(降序)
# 1.5 取前三
# result1 = rdd.map(lambda x: x.split("\t")).\
#     map(lambda x: x[0][:2]).\
#     map(lambda x: (x, 1)).\
#     reduceByKey(lambda a, b: a + b).\
#     sortBy(lambda x: x[1], ascending=False, numPartitions=1).\
#     take(3)
# print("需求1的结果:", result1)
result1 = rdd.map(lambda x: (x.split("\t")[0][:2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求1的结果:", result1)# TOOP 需求2:热门搜索词Top3
# 2.1 取出全部的搜索词
# 2.2 (词,1)二元元组
# 2.3 分组聚合
# 2.4 排序
# 2.5 Top3
result2 = rdd.map(lambda x: (x.split("\t")[2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求2的结果:", result2)# TOOP 需求3:统计黑马程序员关键字在哪个时段被搜索最多
# 3.1 过滤内容,只保留黑马程序员关键字
# 3.2 转换为(小时,1)的二元元组
# 3.3 Key分组聚合Value
# 3.4 排序(降序)
# 3.5 取前1
result3 = rdd.map(lambda x: x.split("\t")).\filter(lambda x: x[2] == '黑马程序员').\map(lambda x: (x[0][:2], 1)).\reduceByKey(lambda a, b: a + b).\sortBy(lambda x: x[1], ascending=False, numPartitions=1).\take(1)
print("需求3的结果:", result3)# TOOP 需求4:将数据转换为JSON格式,写出为文件
# 4.1 转换为JSON格式的RDD
# 4.2 写出为文件
rdd.map(lambda x: x.split("\t")).\map(lambda x: {'time': x[0], 'user_id': x[1], 'key_word': x[2], 'rank1': x[3], 'rank2': x[4], 'url': x[5]}).\saveAsTextFile("D:/output_json")

 

 

 

http://www.yayakq.cn/news/97595/

相关文章:

  • 自己的身份已经网站备案了三网合一网站系统
  • 厦门建站公司哪家好中小工厂erp管理系统
  • 海丰县网站设计美食网站模板下载
  • 德州谁会做网站wordpress预订插件
  • 做车展招商的网站网站建站的书籍
  • 用于制作网站的软件网站会过期吗
  • 企业网站做百度排名要怎么做南京江北新区最新规划
  • 杭州住房和城乡建设局网站微信推广引流方法
  • 有服务器域名源码怎么做网站平台龙华网站建设设计制作公司
  • 西安网站建设资讯上饶网站建设
  • 网站游戏怎么制作网站建设通
  • 微商城网站建设案例自贡公司做网站
  • 做视频网站投入多少深圳兆富资本非吸案4人被判刑
  • 有哪些做高考模拟卷的网站一级域名和二级域名
  • 学校营销型网站建设wordpress home index
  • 如何设计一个好网站昭通seo
  • 源码网站跟自己做的网站区别网页 网站及与之相关的概念
  • 做学校网站素材图片素材seo研究中心
  • 企业网站模板是什么网盘做网站空间
  • 校园网站建设方案模板wordpress ua
  • 互联网科技网站网址大全页面设置在哪
  • 网站建设策划书的编制网站换域名做301
  • 广州网站制作怎么做赤峰网站建设建站公司
  • 东莞网站建设 胶粘包装材料宽带固定ip的怎么做网站服务器
  • 做视频网站服务器多少钱阳江房产网房天下
  • 网站建设工种中国建筑网建筑通
  • 女朋友做网站wordpress免费媒体库管理
  • 深圳排名网站dede网站地图
  • 网站被k换域名亳州网站建设公司
  • 网站建设骗子公司自动做微网站