当前位置: 首页 > news >正文

殷氏科技网站建设工作室城乡住房建设网站

殷氏科技网站建设工作室,城乡住房建设网站,网络营销的概念与含义,wordpress主题选项单选框了解Scrapy 爬虫框架的工作流程&#xff1a; 在scrapy中&#xff0c; 具体工作流程是这样的&#xff1a; 首先第一步 当爬虫引擎<engine>启动后&#xff0c; 引擎会到 spider 中获取 start_url<起始url> 然后将其封装为一个request对象&#xff0c; 交给调度器<…

了解Scrapy 爬虫框架的工作流程:

在scrapy中, 具体工作流程是这样的:

首先第一步 当爬虫引擎<engine>启动后, 引擎会到 spider 中获取 start_url<起始url> 然后将其封装为一个request对象, 交给调度器<scheduler>,  这个调度器中存的是一个又一个的待请求的url request对象, 然后调度器会通过引擎将请求对象交给 下载器<downloader>  下载器获取到请求对象后, 发送请求,获取响应, 然后将获取的响应封装成一个响应对象 response 后通过引擎再交给spider 来进行数据解析, 数据的解析结果如果是 Url, 则通过引擎继续交给调度器, 如果是数据, 则会通过引擎,将数据交给管道<pipline>, 这就是scrapy的工作流程,

下载:

pip install scrapy

创建爬虫项目:

在终端中使用scrapy命令来创建一个爬虫项目:

scrapy startproject 项目名字

 当我们使用命令完成创建项目的时候, scrapy会自动给我们创建一个有关 项目名  的文件夹:

第一个 game 只是scrapy 创建的项目文件, 也就是项目根目录。

第二个game 目录则是我们的scrapy项目了,  项目目录下的 spiders 目录就是 有关 spider 爬虫脚本的目录

items: 暂时先不了解

middlewares: 中间件

pipelines: 管道, 所有爬虫获取到的数据最终都会到管道来

settings: 项目配置文件

创建爬虫:

使用scrapy命令创建爬虫, 但在运行命令之前,需要 cd 进入到爬虫项目中

scrapy genspider <spidername><域名>

scrapy genspider myspider baidu.com

然后你会发现在spiders目录下,会多出一个爬虫脚本,点开脚本 :

 你会发现scrapy为我们创建了一个爬虫类, 集成之Spider

name 则是爬虫的名字

allowed_domains 则是允许爬取的域名, 除此以外的域名都会被过滤掉

start_urls 则就是起始URL了

而此爬虫类中, 还提供了一个 parse 方法, 此方法就是用来解析获取的响应结果的,

启动爬虫:

启动爬虫也很简单, 使用命令启动爬虫

scrapy crawl 爬虫名字

你会看到控制台打印很多东西, 不用着急, 这只是scrapy的输出日志而已, 我们可以通过命令行或者在settings中配置一下日志输出级别:

楼主这里是在settings 文件中配置的:

加上这句, 配置日志级别为 warning, 那么控制台就只能打印 warning及以上级别的信息了

http://www.yayakq.cn/news/656410/

相关文章:

  • 深圳学校网站定制设计站长之家关键词挖掘
  • wordpress链接微博哈尔滨seo
  • 做证明图片的网站沈阳做网站公司
  • 网站新闻列表页设计深圳布吉网站建设
  • 低价自适应网站建设优化建站随州网站建设全包
  • 网络维护员主要什么工作沈阳网站关键词优化哪家好
  • 铁道部建设监理协会网站查询wordpress只显示置顶文章
  • 建设网站一般多钱ps怎么做网站logo
  • 网站建设与维护要用到代码吗襄阳seo顾问
  • 什么是网站建设流程图发网站视频做啥格式最好
  • 门户网站的盈利模式单页网站开发费用
  • 怎么浏览国外的设计网站怎么修改字体wordpress
  • 淘宝做导航网站好网站建设调查通知
  • 德阳移动网站建设网站app软件下载安装
  • 淄博建设局官方网站小程序制作需要什么技术
  • 设计头像网站免费推荐全景网站模版
  • 邯郸网站建设推广阿克苏市建设局网站
  • 灌南网站开发如何创建一家公司
  • 福州网站开发交互效果好的移动端网站
  • wordpress建立论坛网站上海建设教育网站
  • wordpress设置瀑布流自动化优化系统网站建设
  • 烟台网站建设咨询服装设计有哪些网站
  • 科技网站新版网站上线上海网站设计开
  • 网站开发的功能需求文档中国电子商务研究中心
  • 湖南营销型网站建设团队wordpress设置成中文字体
  • 自助建站系统厂家望京SOHO网站建设
  • 网站建设 后期维护王者做网站
  • 网站设计详细设计中国互联网数据平台
  • 长春商城网站开发象山住房和城乡建设局网站
  • wordpress移动端导航太原整站优化