当前位置: 首页 > news >正文

网站开发结论福田网站建设公司哪家性价比高

网站开发结论,福田网站建设公司哪家性价比高,网站开发与维护宣传册,中国建设银行官网站下载中心目录: 1.实战讲解(XXTop250完整信息的爬取):1.1 使用之前做的完整的XXTOP250项目,但是设置为只爬取一页(共25个电影),便于观察1.2 配置settings文件中使用scrapy_redis的必要配置,并…

目录:

  • 1.实战讲解(XXTop250完整信息的爬取):
    • 1.1 使用之前做的完整的XXTOP250项目,但是设置为只爬取一页(共25个电影),便于观察
    • 1.2 配置settings文件中使用scrapy_redis的必要配置,并使用公共redsi数据存储区域(通过使用特定管道实现)
    • 1.3 注意:上述settings.py配置中有个可选项SCHEDULER_PERSIST,作用是决定清理还是不清理redis队列:
    • 1.4 但是上面并不能在redis中看到每个请求URL的信息:
    • 1.5 实例实现断点续爬:

1.实战讲解(XXTop250完整信息的爬取):

  • 先用单独一个项目来使用scrapy_redis,讲解一些重要点!

1.1 使用之前做的完整的XXTOP250项目,但是设置为只爬取一页(共25个电影),便于观察

在这里插入图片描述

1.2 配置settings文件中使用scrapy_redis的必要配置,并使用公共redsi数据存储区域(通过使用特定管道实现)

# 第一步:加入以下代码:
#设置scrapy-redis
#1.启用调度将请求存储进redis
from scrapy_redis.scheduler import Scheduler
SCHEDULER="scrapy_redis.scheduler.Scheduler"#2.确保所有spider通过redis共享相同的重复过滤
from scrapy_redis.dupefilter import RFPDupeFilter
DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"#3.指定连接到Redis时要使用的主机和端口     目的是连接上redis数据库
REDIS_HOST="localhost"
REDIS_PORT=6379# 不清理redis队列,允许暂停/恢复抓取    (可选)    允许暂停,redis数据不丢失     可以实现断点续爬!!!
SCHEDULER_PERSIST = True# 第二步:开启将数据存储进redis公共区域的管道!
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {# 'film.pipelines.FilmPipeline': 300,'scrapy_redis.pipelines.RedisPipeline': 100,# 'film.pipelines.DoubanSqlPipeline': 200,
}

1.3 注意:上述settings.py配置中有个可选项SCHEDULER_PERSIST,作用是决定清理还是不清理redis队列:

  • 首先,设置其值为True,允许断点续爬,通过Redis Desktop Manager观察redis中存储数据的公共区域:(会发现,其中有一个是Douban:duperfilter,里面放的是每个请求URL的指纹;一个是Douban:items,里面放的是最终爬取的数据!)

在这里插入图片描述在这里插入图片描述

但是,如果将可选项SCHEDULER_PERSIST的值设为False,不允许断点续爬,观察:(发现只有一个Douban:items,里面放的是最终爬取的数据!而没有每个请求URL的指纹数据!)

在这里插入图片描述

1.4 但是上面并不能在redis中看到每个请求URL的信息:

  • 这是因为每次执行完毕之后,redis中就不存在了,所以,为了观察到scrapy_redis是将每个请求都交给redis的,我们在运行项目一段时间后,强制关闭项目,再来观察redis,会发现:(其中包括了Douban:requests!!!)

在这里插入图片描述

1.5 实例实现断点续爬:

  • 首先,设置SCHEDULER_PERSIST为True,运行框架一会之后立马强制中断!

  • 注意,settings.py中开启存储本地txt数据的管道!
    在这里插入图片描述
    会发现,在本地存储的数据没有25条,这是因为断点续爬,接着之前中断的点继续爬取的:
    在这里插入图片描述

http://www.yayakq.cn/news/602639/

相关文章:

  • 南阳哪里做网站容桂网站制作咨询
  • 品牌代运营公司梧州自助建站seo
  • 购物网站建设前的市场分析电子商务网站的建设的原理
  • 建设银行纪检监察网站首页嘉兴网站优化联系方式
  • 网站开发架构分类dw做网站的导航栏怎么做
  • 做任务悬赏网站网络推广网站排行榜
  • iis网站访问权限网站结构与导航设计
  • 网站查询器如何做教育公司网站
  • 网盘视频直接做网站简述网络营销发展趋势
  • 用vs做的网站怎么打开吗垂直电商平台有哪些?
  • 关于网站建设方面的文章台州网站建设公司哪个好
  • 童子营网站建设方案app优化是什么意思
  • 手机网站建设选 朗创营销房产网站制作
  • 深圳企业网页设计公司济南网站推广优化外包
  • win7如何做网站网站页面构成
  • 一站式网站建设平台phpwind 转wordpress
  • 河南省大型项目建设办公室网站移动端开发技术有哪些
  • 电商网站设计页面设计谷歌搜索入口手机版
  • 网站备案添加域名自己做个网站需要什么
  • 怎么给网站加代码互联网平台运营是做什么的
  • 哪些网站可以免费做h5wordpress使用iconfont
  • 济南市建设监理有限公司网站拨付网站建设经费的请示
  • 做盗版网站 国外服务器东莞手机微信网站制作
  • 张家界网站制作参考消息电子版手机版
  • 长沙哪家公司做网站兴化市建设局网站
  • 网站的seo如何优化谷歌网站统计
  • 专业网站建设人工智能深互动平台怎么使用
  • 微信端微网站怎么做公司网站建设会计分录
  • 网站备案完毕 怎样建设网站做网站的详细流程
  • 中达建设网站西安工商注册网上平台