当前位置: 首页 > news >正文

珠海网站建设方案优化深圳企业网页制作

珠海网站建设方案优化,深圳企业网页制作,wordpress修改后台没反应,优秀网站设计的标准案例需求: 1.爬取该新闻网站——(网易新闻)的数据,包括标题和链接 2.爬取所有数据(翻页参数) 3.利用jsonpath解析数据 分析: 该网站属于异步加载网站——直接网页中拿不到,需要…

案例需求:

1.爬取该新闻网站——(网易新闻)的数据,包括标题和链接

2.爬取所有数据(翻页参数)

3.利用jsonpath解析数据

分析:

该网站属于异步加载网站——直接网页中拿不到,需要借助fidder抓包工具拿取

可以看到第一页请求网址

https://news.163.com/special/cm_yaowen20200213/?callback=data_callback

6a92f0e00544494d8c21cf6b292dd5b6.png

第二页请求网址

https://news.163.com/special/cm_yaowen20200213_02/?callback=data_callback

4dc35985765e4390b31a2f426e9401c3.png

第五页(最后一页)请求网址:

https://news.163.com/special/cm_yaowen20200213_05/?callback=data_callback

2b51c098461745cd9e30bd5993d62358.png

所以翻页代码如下:

首页地址为第一页地址

for i in range(2,6):print('==========', '当前是第{}页'.format(i))page_url = 'https://news.163.com/special/cm_yaowen20200213_0{}/?callback=data_callback'.format(i)

利用josnpath解析数据

cd754152e4124f5d8cae70ca625e3d5b.png

因为该网页不是常规的josn源码数据,所以需要进行一些处理

text_data=data.split('data_callback(')[1]
# print(text_data)
text_data1 = text_data.split(')')[0]
# print(text_data1)
json_data = json.loads(text_data1)
title = jsonpath(json_data,'$..title')
url = jsonpath(json_data,'$..docurl')

处理解析数据

for i,j in zip(title,url):print(i)print(j)print('=======================================')

示例代码:

import requests
from jsonpath import jsonpath
import json
def get_data(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}r = requests.get(url,headers=headers)# print(r.text)return r.text# print(r.text)# print(r.json())
def parse_data(data):text_data=data.split('data_callback(')[1]# print(text_data)text_data1 = text_data.split(')')[0]# print(text_data1)json_data = json.loads(text_data1)title = jsonpath(json_data,'$..title')url = jsonpath(json_data,'$..docurl')for i,j in zip(title,url):print(i)print(j)print('=======================================')# print(title)# print(url)
if __name__ == '__main__':url = "https://news.163.com/special/cm_yaowen20200213/?callback=data_callback "# h = get_data()# parse_data(h)for i in range(2,6):print('==========', '当前是第{}页'.format(i))page_url = 'https://news.163.com/special/cm_yaowen20200213_0{}/?callback=data_callback'.format(i)h = get_data(page_url)parse_data(h)

6fe1a5bc51994e42a2d68a1c2185b90f.png

 

http://www.yayakq.cn/news/764445/

相关文章:

  • 如何做采集网站顺德建设幼儿院报名网站
  • 网站开发的目的 实习报告工程与建设官网
  • 北京网站建设上石榴汇wordpress段落间距
  • 温岭哪里有做网站的中国建设银行手机网站首页
  • 做网站具体指什么电脑机箱定制网站
  • 做普通网站选择什么服务器wordpress切换作者
  • 网站设计入门怎么查网站做404页面没
  • 国外设计搜索网站网站icp备案 年检
  • 微信开放平台怎么注销账号cpu游戏优化加速软件
  • 代做网站公司茶叶网站建设的优势
  • 吉林省住房和城乡建设厅网站官网网站页面设计怎么做
  • 在哪找做网站的南宁做网站公司
  • 合肥网站建设q479185700棒表白网站
  • 深圳企业集团网站建设有一个做ppt的网站吗
  • 松江建设新城有限公司网站wordpress调用iframe
  • 江干区住房和城乡建设局网站做外包哪个网站好一些
  • 网站运营推广方式哪家外贸网站做的好
  • 淘宝客做的好的几个网站房地产公司 网站建设
  • 国内做网站制作比较热狗网站排名优化外包
  • 涵江网站建设网站建站制作
  • 在跨境网站贸易公司做怎么样wordpress products
  • 网站过期后wordpress中国区官方论坛
  • 高端网站定制方案wordpress好看的自定义页面模版
  • 搭建网站需要哪些东西网站开发验收流程图
  • 个人网站的搭建抖音营销推广方案
  • 建设wap手机网站义乌网站建设联系方式
  • 贺兰县住房城乡建设局网站贵州省企业信用信息查询公示系统
  • 创意专业网站建设青岛联通网站备案
  • 开封网站建设价格厦门 外贸商城网站建设
  • 建立一个网站要多久wordpress 自己创建主题