当前位置: 首页 > news >正文

重庆建网站计划织梦网站修改使用

重庆建网站计划,织梦网站修改使用,dedecms做的网站网站中的图片总是被同一ip恶意点击,免费网站部署目录 爬虫引发的问题 网络爬虫的尺寸 网络爬虫引发的问题 网络爬虫的限制 Robots协议 Robots协议的遵守方式 Robots的使用 对Robots协议的理解 爬虫引发的问题 网络爬虫的尺寸 爬取网页,玩转网页: 小规模,数据量小,爬取…

目录

爬虫引发的问题

网络爬虫的尺寸

网络爬虫引发的问题

网络爬虫的限制

Robots协议

Robots协议的遵守方式

Robots的使用

对Robots协议的理解


爬虫引发的问题

网络爬虫的尺寸

  • 爬取网页,玩转网页:

小规模,数据量小,爬取速度不敏感。Requests库

  • 爬取网站,爬取系列网站:

中规模,数据规模较大,爬取速度敏感。Scrapy库

  • 爬取全网:

大规模,搜索引擎,爬取速度关键。定制开发

网络爬虫引发的问题

骚扰问题、法律风险、隐私泄露

网络爬虫的限制

  • 来源审查:判断User-Agent进行限制
    • 检查来访HTTP协议头的User-Agent域,之相应浏览器或友好爬虫的访问。
  • 发布公告:Robots协议
    • 告知所有爬虫网站的爬取策略,要求爬虫遵守。


Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。

形式:在网站根目录下的robots.txt文件。

案例:京东的Robots协议

http://www.jd.com/robots.txt

# 对于任何的网络爬虫来源,遵守如下协议
User-agent: * 
# Disallow 表示不允许访问
Disallow: /?* 			
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
# 以下四个网络爬虫不允许爬取任何资源
User-agent: EtaoSpider 		
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

基本协议语法:

# 注释
* 代表所有
./代表根目录
User-agent: *		# 代表的是那些爬虫
Disallow: /			# 代表不允许爬虫访问的目录

其他网站的一些Robots协议(但并不是所有网站都有robots协议):

  • 百度:http://www.baidu.com/robots.txt
  • 新浪新闻:http://news.sina.com.cn/robots.txt
  • 腾讯:http://www.qq.com/robots.txt
  • 腾讯新闻:http://news.qq.com/robots.txt
  • 国家教育部:http://www.meo.edu.cn/robots.txt (注:无robots协议)


Robots协议的遵守方式

Robots的使用

网络爬虫:自动或人工识别robots.txt,再进行内容爬取。

约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险。

对Robots协议的理解

  • 爬取网页,玩转网页:

访问量很小:可以遵守

访问量较大:建议遵守

  • 爬取网站,爬取系列网站:

非商业且偶尔:建议遵守

商业利益:必须遵守

  • 爬取全网:

必须遵守

http://www.yayakq.cn/news/973446/

相关文章:

  • 网站各种按钮代码网站挂马怎么办
  • 24小时网站建设官网设计需要多少钱
  • 深圳中心网站建设外军网站建设
  • 大型企业网站制作wordpress图片和相册
  • 建设检测人员证书查询网站国家企业信用公示信息系统官网app
  • 网站如何做伪静态页面网站建设费用计入哪个科目
  • 网站内页权重石柱县建设局网站
  • 淮北建设银行官方网站网站的安全度
  • 邢台建站企业邮箱隆尧做网站
  • 专业的餐饮加盟网站建设哪些网站设计的比较好
  • wordpress全站ajax主题可以做ppt的网站有哪些内容
  • 网站内容有什么特点公司企业logo
  • 自助下单网站微信推广多少钱一次
  • 网站建设业务员转换大做网站代码编辑工具
  • 上海网站建设的价格是多少钱怎么做卡盟网站免费
  • 创建一个个人网站需要多少钱网页开发与设计的内容
  • php网站连接数据库教程山东教育网站开发公司
  • 网站开发项目答辩ppt网站开发已有的知识储备
  • c2c模式的概念自己网站做搜索引擎优化
  • 做网站美工的前途怎么样软件介绍网站模板
  • 每一个网站都是响应式吗舞台灯光网站建设公司
  • 毕业设计代做哪个网站好外贸网站优势
  • 电商网站上信息资源的特点包括怎么进入公众号
  • 网站做统计网络工具app
  • php网站开发框架搭建在线网站建设建议
  • 个人网站怎么做淘宝客微信公众号文章怎么转换wordpress
  • 网站流量突然暴增罗湖网站建设联系电话
  • 四川大良网站建设深圳市福田区652号
  • 长春市住房和城乡建设局网站wordpress读取父分类列表
  • gudao网站建设论坛网站制作