当前位置: 首页 > news >正文

机械网站精选网站开发的技术风险

机械网站精选,网站开发的技术风险,西宁做网站,基于html5开发的网站开发创建crawlspider爬虫文件: scrapy genspider -t crawl 爬虫文件名 爬取的域名scrapy genspider -t crawl read https://www.dushu.com/book/1206.htmlLinkExtractor 链接提取器通过它,Spider可以知道从爬取的页面中提取出哪些链接,提取出的链…

创建crawlspider爬虫文件:

scrapy genspider -t crawl 爬虫文件名 爬取的域名scrapy genspider -t crawl read https://www.dushu.com/book/1206.html

LinkExtractor 链接提取器通过它,Spider可以知道从爬取的页面中提取出哪些链接,提取出的链接会自动生成Request请求对象

class ReadSpider(CrawlSpider):name = "read"allowed_domains = ["www.dushu.com"]start_urls = ["https://www.dushu.com/book/1206_1.html"]# LinkExtractor 链接提取器通过它,Spider可以知道从爬取的页面中提取出哪些链接。提取出的链接会自动生成Request请求对象rules = (Rule(LinkExtractor(allow=r"/book/1206_\d+\.html"), callback="parse_item", follow=False),)def parse_item(self, response):name_list = response.xpath('//div[@class="book-info"]//img/@alt')src_list = response.xpath('//div[@class="book-info"]//img/@data-original')for i in range(len(name_list)):name = name_list[i].extract()src = src_list[i].extract()book = ScarpyReadbook41Item(name=name, src=src)yield book

开启管道、
写入文件

class ScarpyReadbook41Pipeline:def open_spider(self, spider):self.fp = open('books.json', 'w', encoding='utf-8')def process_item(self, item, spider):self.fp.write(str(item))return itemdef close_spider(self, spider):self.fp.close()

运行之后发现没有第一页数据
需要在start_urls里加上_1,不然不会读取第一页数据

start_urls = ["https://www.dushu.com/book/1206_1.html"]
http://www.yayakq.cn/news/264931/

相关文章:

  • seo网站内容更新w3school
  • 游戏币网站建设成本浙江专业网站建设商城报价
  • 有没有专业做网站的软文营销的宗旨是什么
  • 网站设计制作淘宝客建站模板
  • 运营一个网站的费用做旅游的网站
  • 如今做哪些网站致富广东省建设信息网站
  • 兼职做海报网站云服务器建立wordpress
  • 杭州网站建设浙江自己做资金盘网站
  • 哪个网站可以搭建网页广西南宁建设职业学图书馆网站
  • 四川省建设网站高端品牌女装有哪些
  • 做橱窗设计的网站vs做网站不用建项目
  • 网站怎么做图片动态公司官网开发
  • 学校网站建设问卷调查wordpress主题添加右边栏
  • js实现网站简体转繁体湖南做网站 安全还踏实磐石网络
  • 域名怎么建设网站亮点云建站
  • 太原提高网站排名织梦网站模板如何安装教程视频教程
  • 网站推广公司 优帮云wordpress 样式
  • 网站免费域名申请电商网站的建设与运营
  • 网站建设采购项目合同书前端学多久可以找到工作
  • 网站备案情况查询wordpress做支付宝小程序
  • 苏州建设工程人才招聘网信息网站广东省建筑信息网查询系统
  • 微信网站的好处企业vi设计说明
  • 网站建设项目说明书电子商务网站建设与维护03
  • 快速排名网站系统做的差的网站
  • 元器件采购最好的网站yahoo网站提交
  • 网站在线布局带字图片制作器
  • 除了红动中国还有哪些设计网站北京小程序制作公司
  • 义乌做公司网站中国建设银行个人查询余额
  • asp网站数据库扫描尚层别墅装饰公司官网
  • 合作建站协议wordpress 新建分类