当前位置: 首页 > news >正文

dede网站建设流程阜宁网站制作收费在线咨询

dede网站建设流程,阜宁网站制作收费在线咨询,淄博网站建设公司有多少家,做网站属于什么技术Python爬虫中Scrapy框架应用非常广泛,经常被人用于属于挖掘、检测以及自动化测试类项目,为啥说Scrapy框架作为半成品我们又该如何利用好呢 ?下面的实战案例值得大家看看。 目录: 1、Scrapy框架之命令行 2、项目实现 Scrapy框架…

Python爬虫中Scrapy框架应用非常广泛,经常被人用于属于挖掘、检测以及自动化测试类项目,为啥说Scrapy框架作为半成品我们又该如何利用好呢 ?下面的实战案例值得大家看看。

目录:

1、Scrapy框架之命令行

2、项目实现

Scrapy框架之命令行

Scrapy是为持续运行设计的专业爬虫框架,提供操作的Scrapy命令行。

Scrapy爬虫的常用命令:

scrapy[option][args]#command为Scrapy命令

常用命令:(图1)

在这里插入图片描述

至于为什么要用命令行,主要是我们用命令行更方便操作,也适合自动化和脚本控制。至于用Scrapy框架,一般也是较大型的项目,程序员对于命令行也更容易上手。

首先介绍一下相关文件的作用,方便我们到时候修改相关代码。

scrapy.cfg:部署Scrapy爬虫的配置文件

demo:Scrapy框架的用户自定义Python代码

其中,在项目文件根目录里面的demo文件中,有如下文件以及相关的作用:

init.py:初始化脚本

items.py:Items代码模板(继承类)

middlewares.py:Middlewares代码模板(继承类)

Pipelines.py:Pipelines代码模块(继承类)

settings.py:Scrapy爬虫的配置文件(优化需要改动)

spiders:代码模板目录(继承类)

在Spider文件目录下包含如下文件:

init.py:初始文件。无需修改

_pycache:缓存目录,无需修改

项目实现

接下来我们开始第一次的实操,大致步骤如下:

1、建立一个Scrapy爬虫工程

2、在工程中产生一个Scrapy爬虫

3、配置产生的spider爬虫

4、运行爬虫,获取网页

1、新建项目

首先,我们得先新建一个项目文件。

这里需要我们打开Git,至于Git的安装以及简单使用我们之前在折腾博客时有了解过:用Hexo+Github Pages搭建私人博客(第二站)

首先打开Git定位到你要爬虫项目的地址:

比如小编我是要定位到E盘,则输入cd E:(图2)

在这里插入图片描述

定位到目标地址后,我们便可以开始新建项目啦~

To:dir命令为显示目录和子目录的列表.

2、新建Scrapy

接下来我们输入如下命令新建一个名为newdemo的爬虫项目:

scrapy startproject newdemo

项目生成后我们可以看见在根目录生成了一个项目文件,也是叫做newdemo,那么接下来我们需要对其中的文件进行编辑。(图3)

在这里插入图片描述

3、配置Spider爬虫

接下来我们需要输入如下命令:

scrapy genspider demo python123.io

相关运行结果如下:(图4)

在这里插入图片描述

然后会在newdemo\spiders目录下生成一个demo.py文件 其中,parse(用于处理响应,解析内容形成字典,发现新的URL爬取请求)(图5)

在这里插入图片描述

修改demo文件里面的代码,修改后如下:

import scrapy#继承Scrapy.Spider类的子类
class DemoSpider(scrapy.Spider):name = 'demo'#当前爬虫命名为demo#allowed_domains = ['python123.io'] #用户在命令行提交给爬虫的域名start_urls = ['http://python123.io/ws/demo.html']#爬取内容的初始页面#parse()用于处理响应,解析内容形成字典,发现新的URL爬取请求def parse(self, response):fname=response.url.split('/')[-1]with open (fname,'wb') as f:f.write(response.body)self.log('save file %s' % name)

4、运行项目

最后一步便是运行该爬虫项目,命令为:

scrapy crawl demo

相关运行结果如下:(图6)

在这里插入图片描述
直到最后在newdemo文件目录下出现demo.html文件,说明此项目运行成功。

打开demo.html文件显示如下:(图7)

在这里插入图片描述
Python爬虫系列,持续更新…

http://www.yayakq.cn/news/42197/

相关文章:

  • 城市文明建设网站网站建设原则包括哪些内容
  • 网站数字签名管理咨询公司如何开发客户
  • 找小网站的关键词响应式和非响应式网站
  • 徐州网站开发哪个好薇wordpress插件用户
  • 深圳做网站做app房地产数据网站
  • 江西科技学校网站建设站长工具seo综合查询方法
  • 炫酷特效网站云虚拟主机 wordpress
  • 阜宁县城乡建设局新的官方网站地方生活门户网站名称
  • 白云做网站SEO名师工作室网站建设 意义
  • 合肥建设公司网站如何查看网站做没做百度推广
  • 能自己做谱子的网站优质的聊城做网站
  • 长沙中小企业做网站建设网站选多大的空间合适
  • 站长工具在线南宁北京网站建设
  • 网站开发工程师求职简历开发微信公众
  • 电商网站建设开发公司手机制作广告的app
  • 网站建设投资风险分析宁波白云医院网站建设
  • 做电影网站为什么要数据库上海建设工程质量监督站网站
  • 做热图的网站石家庄建设局网站怎么打不开
  • 如何建设淘宝网站如何更改地图上的店名
  • 道路建设网站黄骅市海边沙滩在哪里
  • 网站的建设主机费用南京网站搜索引擎优化
  • 小羚羊网站怎么建设怎么开拼多多网店步骤
  • 5118站长平台网站流量下降
  • 网站建设服务器如何选择青岛栈桥景点介绍
  • 成都中方互动做网站怎样提高网站收录
  • 效果图网站源码关闭wordpress页面评论
  • 公司在兰州要做网站怎样选择wordpress图片批量上传插件下载
  • 宝安多屏网站建设公司好吗建站快车品牌
  • 科技公司建设网站公司wordpress图片模板下载
  • 邯郸建公司网站价格iis6建设网站浏览