当前位置: 首页 > news >正文

做seo用什么网站系统网站建设pqiw

做seo用什么网站系统,网站建设pqiw,网站的域名,大学生html网页设计个人博客模板案例需求: 1.爬取该新闻网站——(网易新闻)的数据,包括标题和链接 2.爬取所有数据(翻页参数) 3.利用jsonpath解析数据 分析: 该网站属于异步加载网站——直接网页中拿不到,需要…

案例需求:

1.爬取该新闻网站——(网易新闻)的数据,包括标题和链接

2.爬取所有数据(翻页参数)

3.利用jsonpath解析数据

分析:

该网站属于异步加载网站——直接网页中拿不到,需要借助fidder抓包工具拿取

可以看到第一页请求网址

https://news.163.com/special/cm_yaowen20200213/?callback=data_callback

6a92f0e00544494d8c21cf6b292dd5b6.png

第二页请求网址

https://news.163.com/special/cm_yaowen20200213_02/?callback=data_callback

4dc35985765e4390b31a2f426e9401c3.png

第五页(最后一页)请求网址:

https://news.163.com/special/cm_yaowen20200213_05/?callback=data_callback

2b51c098461745cd9e30bd5993d62358.png

所以翻页代码如下:

首页地址为第一页地址

for i in range(2,6):print('==========', '当前是第{}页'.format(i))page_url = 'https://news.163.com/special/cm_yaowen20200213_0{}/?callback=data_callback'.format(i)

利用josnpath解析数据

cd754152e4124f5d8cae70ca625e3d5b.png

因为该网页不是常规的josn源码数据,所以需要进行一些处理

text_data=data.split('data_callback(')[1]
# print(text_data)
text_data1 = text_data.split(')')[0]
# print(text_data1)
json_data = json.loads(text_data1)
title = jsonpath(json_data,'$..title')
url = jsonpath(json_data,'$..docurl')

处理解析数据

for i,j in zip(title,url):print(i)print(j)print('=======================================')

示例代码:

import requests
from jsonpath import jsonpath
import json
def get_data(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}r = requests.get(url,headers=headers)# print(r.text)return r.text# print(r.text)# print(r.json())
def parse_data(data):text_data=data.split('data_callback(')[1]# print(text_data)text_data1 = text_data.split(')')[0]# print(text_data1)json_data = json.loads(text_data1)title = jsonpath(json_data,'$..title')url = jsonpath(json_data,'$..docurl')for i,j in zip(title,url):print(i)print(j)print('=======================================')# print(title)# print(url)
if __name__ == '__main__':url = "https://news.163.com/special/cm_yaowen20200213/?callback=data_callback "# h = get_data()# parse_data(h)for i in range(2,6):print('==========', '当前是第{}页'.format(i))page_url = 'https://news.163.com/special/cm_yaowen20200213_0{}/?callback=data_callback'.format(i)h = get_data(page_url)parse_data(h)

6fe1a5bc51994e42a2d68a1c2185b90f.png

 

http://www.yayakq.cn/news/247354/

相关文章:

  • 广州市开发区建设局官方网站电子商务网站建设技巧
  • 威海网站建设哪家好网站建设策划实施要素
  • c .net怎么做网站石家庄学院
  • 阿里云wordpress建站教程wordpress cdn注意事项
  • 池州网站网站建设电子系网站建设方案
  • 泊头网站制作郑州即将迎来全面解封
  • 免费建博客网站重庆微信网站作公司
  • 扁平化色彩网站肖港网站开发
  • 手机网站模板制作电子商务网站开发步骤
  • 广告网站模板免费下载电影网站规划
  • 长沙做个网站多少钱wordpress去重插件
  • 互联网网站开发用哪个语言开发wordpress开发平台
  • 专业做网站关键词排名下掉食品库存管理软件
  • 网站建设华科技网站建设课本
  • 海口网站排名提升肃宁网站制作价格
  • 建站网址大全海外网站加速器
  • 天津营销型网站建设为什么百度不收录wordpress
  • 门户网站注意事项广西百度推广
  • 做个普通的网站多少钱网络卖货怎么卖
  • 陕西省交通集团建设网站网页前端开发教程
  • 凤岗建设网站扬中门户
  • 甘肃省建设工程造价信息网站杨振峰网站开发
  • 网站维护什么情况网站运营教程
  • 网站 毕业设计代做徐州建设工程公共资源交易
  • 建视频网站需要多少钱做网站的应该怎么发广告
  • 如何创建旅游网站长江工程建设局网站
  • 网站后台上传文字图片app开发公司名字
  • 衡阳做网站成都管理咨询公司排名
  • 爬虫做视频网站手机兼职app
  • 番禺品牌型网站建设运行两个wordpress