当前位置: 首页 > news >正文

怎么用ftp清空网站网站建设资料

怎么用ftp清空网站,网站建设资料,石家庄做网站公司的电话,建自己的网站多少钱一.最终效果 二.项目代码 2.1 新建项目 本文使用scrapy分布式、多线程爬虫框架编写的高性能爬虫,因此新建、运行scrapy项目3步骤: 1.新建项目: scrapy startproject weibo_hot 2.新建 spider: scrapy genspider hot_search "weibo.com" 3…

一.最终效果

二.项目代码

2.1 新建项目

本文使用scrapy分布式、多线程爬虫框架编写的高性能爬虫,因此新建、运行scrapy项目3步骤:

1.新建项目:
scrapy startproject weibo_hot

2.新建 spider:
scrapy genspider hot_search "weibo.com"

3.运行 spider:
scrapy crawl hot_search

注意:hot_search 是spider中的name

4.编写item:

class WeiboHotItem(scrapy.Item):index = scrapy.Field()topic_flag = scrapy.Field()icon_desc_color = scrapy.Field()small_icon_desc = scrapy.Field()small_icon_desc_color = scrapy.Field()is_hot = scrapy.Field()is_gov = scrapy.Field()note = scrapy.Field()mid = scrapy.Field()url = scrapy.Field()flag = scrapy.Field()name = scrapy.Field()word = scrapy.Field()pos = scrapy.Field()icon_desc = scrapy.Field()

5.编写爬虫解析代码:


import os
from itemadapter import ItemAdapter
from .settings import DATA_URI
from .Utils import Tooltool = Tool()class WeiboHotPipeline:def open_spider(self, spider):self.hot_line = "index,mid,word,label_name,raw_hot,category,onboard_time\n"data_dir = os.path.join(DATA_URI)file_path = data_dir + '/hot.csv'#判断文件夹存放的位置是否存在,不存在则新建文件夹if os.path.isfile(file_path):self.data_file = open(file_path, 'a', encoding='utf-8')else:if not os.path.exists(data_dir):os.makedirs(data_dir)self.data_file = open(file_path, 'a', encoding='utf-8')self.data_file.write(self.hot_line)def close_spider(self, spider):  # 在关闭一个spider的时候自动运行self.data_file.close()def process_item(self, item, spider):try:hot_line = '{},{},{},{},{},{},{}\n'.format(item.get('index', ''),item.get('mid', ''),item.get('word', ''),item.get('label_name', ''),item.get('raw_hot', ''),tool.translate_chars(item.get('category', '')),tool.get_format_time(item.get('onboard_time', '')),)self.data_file.write(hot_line)except BaseException as e:print("hot错误在这里>>>>>>>>>>>>>", e, "<<<<<<<<<<<<<错误在这里")return item

三.注意事项

settings.py配置项修改


# Obey robots.txt rules
ROBOTSTXT_OBEY = False # 关闭,否则根据weibo的爬虫策略爬虫无法获取数据

如果

四.运行过程

五.项目说明文档

六.获取完整源码

爱学习的小伙伴,本次案例的完整源码,已上传微信公众号“一个努力奔跑的snail”,后台回复 热搜榜 即可获取。

http://www.yayakq.cn/news/202285/

相关文章:

  • 网站建设公司怎么盈利胶州网站设计公司
  • 邢台做网站建设优化制作公司金信wordpress添加标签后哪里显示
  • 秦皇岛学网站建设适合网络推广的项目
  • 人人做免费网站工程信息价查询网站
  • 建设银行六安分行网站如何最便宜建设一个网站
  • 凡科建站代理入口上海学习网站建设
  • 嘉兴免费网站制作河北百度推广
  • 动易论坛官方网站群晖wordpress安装主题下载失败
  • 网站改域名如何做百度优化WordPress添加下载弹窗
  • 编写网站的软件做微网站要多少钱
  • 网站单页在线制作软件郑州营销网站建设
  • 襄阳公司网站建设做网站去哪找
  • 网站开发的就业方向多个域名指向同一个网站
  • ajax数据库网页网站设计大连建设网球场价格
  • 企业移动端建设与网站建设万全孔家庄做网站
  • 网站建设项目汇报用ps制作网页教程
  • 湖北省建设厅网站查询毛坯房最便宜装修方法
  • 网站界面设计实训总结石家庄seo网站优化
  • 网站开发专业前景新手建设网站的步骤
  • 南通网站群建设网页设计作品要求
  • 网站建设过程中什么最重要山西省建设厅投诉网站
  • 闸北区网站设计与制怎样加强企业网站建设
  • 帮企业建设网站和推广网站新开传奇网站999新服网
  • wordpress查看站点企业系统化管理
  • c2c网站开设店铺山东城市建设学院网站
  • 网站左侧 导航招聘网站开发的要求
  • 可以做网站的公司微信管理系统下载
  • 网站建设花费外包优化网站
  • 免费的网站推广平台网站建设与运营的课程总结
  • 二级目录做网站如何搭建本地wordpress