当前位置: 首页 > news >正文

网站建设基本问题一级消防工程师考试条件

网站建设基本问题,一级消防工程师考试条件,网上如何推广自己的产品,推广普通话内容前言 Scrapy是非常优秀的一个爬虫框架,基于twisted异步编程框架。yield的使用如此美妙。基于调度器,下载器可以对scrapy扩展编程。插件也是非常丰富,和Selenium,PlayWright集成也比较轻松。 当然,对网页中的ajax请求…

前言

Scrapy是非常优秀的一个爬虫框架,基于twisted异步编程框架。yield的使用如此美妙。基于调度器,下载器可以对scrapy扩展编程。插件也是非常丰富,和Selenium,PlayWright集成也比较轻松。

当然,对网页中的ajax请求它是无能无力的,但结合mitmproxy几乎无所不能:Scrapy + PlayWright模拟用户点击,mitmproxy则在后台抓包取数据,登录一次,运行一天。

最终,我通过asyncio把这几个工具整合到了一起,基本达成了自动化无人值守的稳定运行,一篇篇的文章送入我的ElasticSearch集群,经过知识工厂流水线,变成知识商品。

”爬虫+数据,算法+智能“,这是一个技术人的理想。

配置与运行

安装:

pip install scrapy

当前目录下有scrapy.cfg和settings.py,即可运行scrapy

命令行运行:

scrapy crawl ArticleSpider

在程序中运行有三种写法:

from scrapy.cmdline import executeexecute('scrapy crawl ArticleSpider'.split())

采用CrawlerRunner:

# 采用CrawlerRunner
from twisted.internet.asyncioreactor import AsyncioSelectorReactor
reactor = AsyncioSelectorReactor()runner = CrawlerRunner(settings)
runner.crawl(ArticleSpider)
reactor.run()

采用CrawlerProcess

# 采用CrawlerProcess
process = CrawlerProcess(settings)
process.crawl(ArticleSpider)
process.start()

和PlayWright的集成

安装

pip install scrapy-playwright
playwright install
playwright install firefox chromium

settings.py配置

BOT_NAME = 'ispider'SPIDER_MODULES = ['ispider.spider']TWISTED_REACTOR = 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'
DOWNLOAD_HANDLERS = {"https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler","http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",
}CONCURRENT_REQUESTS = 32
PLAYWRIGHT_MAX_PAGES_PER_CONTEXT = 4
CLOSESPIDER_ITEMCOUNT = 100PLAYWRIGHT_CDP_URL = "http://localhost:9900"

爬虫定义

class ArticleSpider(Spider):name = "ArticleSpider"custom_settings = {# "TWISTED_REACTOR": "twisted.internet.asyncioreactor.AsyncioSelectorReactor",# "DOWNLOAD_HANDLERS": {#     "https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",#     "http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",# },# "CONCURRENT_REQUESTS": 32,# "PLAYWRIGHT_MAX_PAGES_PER_CONTEXT": 4,# "CLOSESPIDER_ITEMCOUNT": 100,}start_urls = ["https://blog.csdn.net/nav/lang/javascript"]def __init__(self, name=None, **kwargs):super().__init__(name, **kwargs)logger.debug('ArticleSpider initialized.')def start_requests(self):for url in self.start_urls:yield Request(url,meta={"playwright": True,"playwright_context": "first","playwright_include_page": True,"playwright_page_goto_kwargs": {"wait_until": "domcontentloaded",},},)async def parse(self, response: Response, current_page: Optional[int] = None) -> Generator:content = response.textpage = response.meta["playwright_page"]context = page.contexttitle = await page.title()while True:## 垂直滚动下拉,不断刷新数据page.mouse.wheel(delta_x=0, delta_y=200)time.sleep(3)pass

参考链接

  • 官方scrapy-playwright插件
  • 崔庆才丨静觅写的插件GerapyPlaywright
http://www.yayakq.cn/news/967738/

相关文章:

  • 用windows建设网站好吗wordpress创建分类目录
  • 做苗木的用什么网站wordpress批量提交表单
  • 专题类网站wordpress 页面栏目
  • 网站app的作用怎么在电脑上自己做网站吗
  • 银行需要网站开发人员嘛一个只做百合的网站
  • 企业网站建设毕业设计论文seo专业培训课程
  • 智能建站系统官网青岛网上房地产官网
  • 龙岩网站建设方案书seo网站优化方案摘要
  • 单位网站建设费用账务处理产品设计学什么内容
  • 有哪些游戏可以做网站建设厅试验员考试报名网站
  • 深圳网站建设服务比较便宜贵州省建设网站
  • 长春建站培训班汽车网站建设方案预算
  • 青岛网站制作推广青海省建设局网站首页
  • 官方网站建设银行年利息是多少比亚迪新能源汽车车型
  • 成都专业网站搭建公司电影 wordpress
  • 红河州网站建设制作网站开发软件的选择
  • 建设维护网站运营方案泉州网站公司建站
  • 网站色彩代码扫码点餐小程序怎么做
  • 济南网站优化收费标准宝塔上安装wordpress
  • 网站流量被黑krypt免费wordpress空间
  • 吉林省住房和城乡建设部网站家装公司建设网站
  • 昆明专业网站建设沈阳专业网站建设
  • 关于做服饰网站的首页视频网站开发方案
  • wordpress建立论坛网站wordpress 4.9.6 下载
  • 个人建站哪类站赚钱招聘网站建设维护人员
  • 山东省建设厅电工证查询网站如何请人做网站
  • 云南科技网站建设linux下wordpress
  • c2c网站有哪些平台ps培训班要学多久多少钱
  • 域名有了怎么制作网站帮别人做网站需要什么能力
  • 贵阳 网站建设wordpress小图标大全