当前位置: 首页 > news >正文

网站xml深圳公司网站设计企业

网站xml,深圳公司网站设计企业,网站建设需怎么做,宁波建设集团股份有限公司招聘爬虫经验之谈对爬虫的认识网站分析技术选型JS逆向反爬机制结语近段时间,因为工作需要做一些爬虫的开发,分享一下走过的坑和实战的经验吧!对爬虫的认识 F12查看的网络请求,找到相应的接口查看一下json数据来源和构造。我爬取的网站…

爬虫经验之谈

    • 对爬虫的认识
    • 网站分析
    • 技术选型
    • JS逆向
    • 反爬机制
    • 结语

近段时间,因为工作需要做一些爬虫的开发,分享一下走过的坑和实战的经验吧!

对爬虫的认识

  • F12查看的网络请求,找到相应的接口查看一下json数据来源和构造。我爬取的网站很多信息是需要vip登录才可以获取的。我最开始试图破解vip这一步,结果是我天真了。后来查了一些资料才发现,爬虫干不了这个,得是黑客渗透才行!!看来之前的我还是对爬虫理解不透彻,,原来爬虫没有那么高端。其实就是对可见数据的抓取,完全是提高效率罢了,越界的事儿不是它的范畴

网站分析

目前爬虫获取数据基本分为两种情况,可选择一种使用,也可结合使用
1、找到url规律,get请求html,然后提取想要的数据
2、找到请求json数据的接口,模拟接口传参获取json数据
第一种情况

1、适用于html较为规律的情况下,几乎一眼就能看出。通常这种网站的开发都是非常简单的
2、有部分网页是js渲染过的,所以直接拿下来之后的html是不全的。需要用到splash这样的渲染库,它会把js渲染后的html给到你

第二种情况

1、最实用的手段,也是工程师们最喜欢的方式

技术选型

爬虫相关的最受欢迎的技术栈和相关描述,可以根据业务需要自行选取:

  • selenium:自动化模拟浏览器。这种方式效率比较低,但是比较简单,若遇到需要登陆时的滑块破解,有一定的破解难度
  • requests库:模拟登录维持会话与对方服务器进行交互。也是上述网站分析第二种情况的常用方式,也是非常非常受欢迎的方式。我个人最喜欢的,也是个人觉得性价比最高的。
  • pyspider:国人开发的一款web ui的爬虫框架。适用于简单的爬虫,效率高,我个人不是很喜欢,局限性太大
  • scrapy:很强大的爬虫框架,将爬虫脚本带向工程化开发和管理。如果需要将爬虫做成工程的话,比如做数据维护这类的长期需求,建议用这个
  • 数据解析用Beautifulsoup、re正则、pyquery,lxml都是没有问题的。本人基本是结合使用,我相比更喜欢正则
  • fiddle:网络数据抓包,可以查看网络请求和其带的数据,方便做接口查询和错误排查

JS逆向

JS逆向简单讲就是在JS里面找到我们想要的东西。举个例子:接口中返回的数据是经过加密的,我们拿到过后是一串密文,但是在前端显示是正常的,那么此数据就是在后端加密,前端JS解密的。那么我们需要找到JS解密的代码,将密文解密得到我们想要的明文。
我喜欢用的方式是:找到那个加密的变量,JS全局搜索变量,很快就可以找到需要的JS解密代码

反爬机制

反扒机制通常都是因为请求频率过高而遭刀封禁,常见封禁如下所示

  • IP封禁 : 搭建ip池,轮流使用
  • user-agent封禁 :搭建user-agent池,轮流使用
  • 账户封禁:维持多个账号,轮流使用

结语

我这里给新手提供一些爬虫向导,欢迎指正。最后强调一遍爬虫是:对可见数据的抓取,完全是提高效率罢了,越界的事儿不是它的范畴
简单分为关键三步:
1、查找接口,模拟参数
2、请求访问,抓取数据
3、提高数据抓取效率,实现快速抓取

http://www.yayakq.cn/news/187036/

相关文章:

  • 读书郎营销网站新建网站如何让百度收录
  • 政务服务 网站 建设方案自己搭建网站只有文字
  • 泰安网站开发公司让路由器做网站服务器
  • 亦庄网站建设点的排版设计网站
  • 门户网站建设及运营好的产品怎么推广语言
  • 广州专业网站制作哪家专业笔记本电脑做网站比较畅快
  • 网站由哪些部分组成部分组成部分wordpress网站编辑
  • phpcms做视频网站wordpress随机推荐
  • 网站建设的要求有哪些国际室内设计公司排名
  • 提供盐城网站开发腾讯企业邮箱下载app
  • 厦门做网站的公司有哪些口碑好的设计培训机构
  • 长沙网站建设哪家公司好水墨 网站模板
  • 鹰潭网站制作辽宁住房和城乡建设厅网站首页
  • 怎么设置网站关键词外贸建站 智能营销
  • 巴彦淖尔市做网站公司h5游戏大厅
  • 网站策划案怎么做在线生成app免费
  • 网站导航设置wordpress建站教程新手
  • 2003网站服务器建设中wordpress 默认头像
  • 国外的网站用不用备案html前端模板
  • 东营做网站优化多少钱百度怎么推广产品
  • 东坑东莞网站建设网站建设所需人员
  • 做英文企业网站福田欧曼行星
  • 作品集的个人网站怎么做直播app开发一个需要多少钱
  • 网站上传权限问题ios wordpress连接站点
  • 十大免费跨境网站网站建设与网页制作论文
  • 淮安那家公司做网站提交网站到百度
  • 网站设计交流wordpress sticky_posts
  • 胶州市网站建设策划运营主要做什么
  • 部分网站建设管理不规范wordpress伪静态iis7
  • 枣庄高端网站定制河南省住房与建设注册中心网站