当前位置: 首页 > news >正文

网站排名优化技术网站建设的课件

网站排名优化技术,网站建设的课件,ps网站怎么做滑动背景图片,网络公司关键词排名import requestsurl https://movie.douban.com/top250 response requests.get(url) # 查看结果 print(response)在requests使用一文中我们有讲到,当状态码不是200时表示爬虫不可用,也就是说我们获取不到网页源代码。但是我们还是可以挣扎一下&#xff…
import requestsurl = 'https://movie.douban.com/top250'
response = requests.get(url)
# 查看结果
print(response)

在这里插入图片描述

  在requests使用一文中我们有讲到,当状态码不是200时表示爬虫不可用,也就是说我们获取不到网页源代码。但是我们还是可以挣扎一下,不是说不可用就放弃了。爬虫时经常会遇到有些网站有反爬机制,为了能够请求成功该如何操作?那当然是把我们伪装成浏览器了!

  那么如何把自己伪装成浏览器代替我们发送请求呢?pycharm有个字典Headers,我们需要在浏览器中找到键User-Agent对应的值

User-Agent:对应的值包含了浏览器、操作系统的各项信息。如果没有User-Agent,就相当于赤裸裸的去访问对方服务器,只要对方有反爬虫机制,就能发现你是爬虫。

在浏览器中打开想要爬取的网站,右键 --> 检查然后如下图操作:

在这里插入图片描述

  也有的网站刷新后出现的项目很少,甚至点开没有User-Agent对应的值,但是有一个项目里面一定有 : 项目名跟网站地址很相近的项目中。例如在本例中名为www.zhihu.com的项目里一定含有。

  在以贝壳租房为例,打开网页后,右键 --> 检查,在项目名为zufang中一定含有User-Agent对应的值

在这里插入图片描述

获取键user-agent对应的值后,我们把键与值写入字典Headers中

import requests# 1. 浏览器伪装
url = 'https://movie.douban.com/top250'
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}
# 获取响应结果
response = requests.get(url, headers=headers)
# 查看状态码
print(response.status_code)  # 200
# 获取网页源代码
# print(response.text)
http://www.yayakq.cn/news/253038/

相关文章:

  • 建网站代理商深圳的装修公司排名
  • 网站外包 博客网站内容页怎么设计模板
  • 建设网站50m数据库小程序有什么用
  • php 设置网站根目录湘潭做网站出色磐石网络
  • 聊城做wap网站服务网易企业邮箱的登录方法
  • 行政机关网站建设的意义如何用phpstudy做网站
  • ps如何做网站轮播图企业网站建站软件
  • 我网站建设建设用地规划公示在哪个网站查
  • 晋江网站建设联系电话企业建站系统开源
  • 网站建设 技术协议网站cms系统源码
  • 怎样做instergram网站营销包装设计招聘
  • 湛江专业建网站哪家好查看网站备案
  • wordpress 网站建设中做网站要注意什么问题
  • 中山专业制作网站化妆培训网站模板
  • 做算命类网站违法吗?南京做网站南京乐识最优
  • 怎么快速做网站排名如何查看网站的建设方式
  • 怎么在虚拟主机上建网站《学做网站论坛》视频下载
  • wordpress网站可以显示中文和英文网站设计与制作包括
  • 安卓商城网站开发网站php网站空间
  • 海南省住房和城乡建设厅官方网站呼叫中心系统源码
  • 全国工商网站查询企业信息seo优化技术培训中心
  • 怎做不下网站刷枪金堂县建设局网站
  • 许昌网站建设汉狮怎么样住在九江网
  • 商贸行业网站建设公司开发一平方多少钱
  • 做电器推广的网站网站建设w亿码酷1流量订制
  • 新手怎么做网站网站开发用 c php
  • 站酷网官网进入陕西百度推广的代理商
  • 二手车网站设计邢台专业做网站哪家好
  • 开锁都在什么网站做网站服务器送一年
  • 如何把自己做的网站 放在网上更改wordpress主题字体颜色