当前位置: 首页 > news >正文

网站运营方案怎么写?网站使用了seo优化工具怎么检测

网站运营方案怎么写?,网站使用了seo优化工具怎么检测,电商平台推广方案,线下推广app赚佣金题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据,需要访问大量的网页才能够完成任务。 这里有一个网站,还是求所有数字的和,只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import reques…

题目
链接

爬虫往往不能在一个页面里面获取全部想要的数据,需要访问大量的网页才能够完成任务。
这里有一个网站,还是求所有数字的和,只是这次分了1000页。

思路

  • 找到调用接口

-
可以看到后面有个参数page来控制页码

代码实现

import requests
import reurl = 'http://www.glidedsky.com/level/web/crawler-basic-2'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54','Cookie': ''
}res = 0
for i in range(1, 1001):temp_url = url + '?page=' + str(i)response = requests.get(temp_url, headers=headers)html = response.textpattern = re.compile('<div class="col-md-1">.*?(\d+).*?</div>', re.S)n_list = re.findall(pattern, html)for n in n_list:res += int(n)print(f'Result: {res}')

使用多线程实现更快爬取:

import requests
import re
import threadingurl = 'http://www.glidedsky.com/level/web/crawler-basic-2'
total_threads = 10  # 设置线程数量
lock = threading.Lock()  # 创建一个锁,用于线程间的数据同步
res = 0def worker(thread_id):global resfor i in range(thread_id, 1001, total_threads):temp_url = url + '?page=' + str(i)response = requests.get(temp_url, headers=headers)html = response.textpattern = re.compile('<div class="col-md-1">.*?(\d+).*?</div>', re.S)n_list = re.findall(pattern, html)with lock:for n in n_list:res += int(n)threads = []
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54','Cookie': ''
}# 创建并启动线程
for i in range(total_threads):thread = threading.Thread(target=worker, args=(i,))thread.start()threads.append(thread)# 等待所有线程执行完成
for thread in threads:thread.join()print(f'Result: {res}')

使用异步函数

import aiohttp
import asyncio
import reurl = 'http://www.glidedsky.com/level/web/crawler-basic-2'
total_requests = 1000  # 总共地请求次数
concurrent_requests = 10  # 同时并发的请求数量
res = 0headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54','Cookie': ''
}async def fetch_url(session, temp_url):async with session.get(temp_url, headers=headers) as response:html = await response.text()pattern = re.compile('<div class="col-md-1">.*?(\d+).*?</div>', re.S)n_list = re.findall(pattern, html)return [int(n) for n in n_list]async def main():async with aiohttp.ClientSession() as session:tasks = []for i in range(1, total_requests + 1):temp_url = url + '?page=' + str(i)tasks.append(fetch_url(session, temp_url))if len(tasks) >= concurrent_requests or i == total_requests:results = await asyncio.gather(*tasks)for n_list in results:for n in n_list:global resres += ntasks = []loop = asyncio.get_event_loop()
loop.run_until_complete(main())print(f'Result: {res}')

时间统计:同步的方式大概80s,多线程和异步时间差不多都是20s左右

http://www.yayakq.cn/news/505817/

相关文章:

  • 怎么自己设计网站江浙区域网络公司排名
  • 张家口高新区做网站商城开发企业
  • 自己创免费网站wordpress 去掉wordpress
  • 建网站需要哪些文件夹华为网站建设和阿里云哪个好
  • 网站开发与应用课程讨论合肥企业网站设计制作
  • 外贸网站一站式服务服务器怎么建设网站
  • 网站模板文件下载网站的排版问题
  • 镇江网站外包做网站要什么颜色模式
  • 什么是网站根目录网站源码下载 用户注册
  • 如何修改网站域名高端广告公司名字
  • 炫酷html5网站模板电子商务网站名字
  • 网站建设与管理实践报告网站到处仿
  • 公司网站建设的视频洛阳手机网站开发
  • 临沂市建设官方网站在哪个彩票网站是小黄人做头像的
  • 宝安公司网站建设怎么把自己的网站上传到百度
  • 企业网站建设知乎简单的网页设计代码记事本
  • pageadmin自助建站系统网站 扩展
  • 遵化手机网站设计做推广的公司一般都叫什么
  • 旅游网站模板设计南昌企业网站建设费用
  • 上海网站备案拍照地点提供网站建设和制作
  • 笑话网站模版怎么做网站的优化
  • 下载网站系统源码外贸营销推广平台有哪些
  • 怎么给自己做个网站吗网站微信登录怎么做的
  • 论文收录网站有哪些下载的html文件打开乱码
  • 学做网站的书哪些好网站设计流程及制作流程
  • 济南市工程建设技术监督局网站网站开发年度总结工作
  • 大团网站建设程序员培训机构课程
  • 怎么样用手机做网站关键词wordpress页面之间如何跳转
  • 如何做外国网站销售青岛自动seo
  • 7块钱建购物网站免费做链接的app有哪些