当前位置: 首页 > news >正文

手机怎么制作网站教程视频教程珠海做网站三年多少钱

手机怎么制作网站教程视频教程,珠海做网站三年多少钱,网站制作公司杭州,wordpress搬入域名写本篇文章,我认为是能把自己所理解的内容分享出来,说不定就有和我一样有这样思维的共同者,希望本篇文章能帮助大家!✨✨ 文章目录 一、 🌈python介绍和分析二、 🌈http请求三、 🌈http响应四、…

写本篇文章,我认为是能把自己所理解的内容分享出来,说不定就有和我一样有这样思维的共同者,希望本篇文章能帮助大家!✨✨

文章目录

  • 一、 🌈python介绍和分析
  • 二、 🌈http请求
  • 三、 🌈http响应
  • 四、 🌈教程演示
  • 五、🌈获取豆瓣top榜上前250部电影的响应内容


一、 🌈python介绍和分析

Python爬虫,又称网络爬虫或网页抓取程序,是一种自动化程序,它主要用于从互联网上抓取大量信息。这类程序按照预设的规则遍历互联网上的网页,并抽取其中有价值的数据。

思维导图
在这里插入图片描述


具体内容,Python爬虫通常涉及以下几个核心步骤:

  1. 发起请求

    • 使用Python中的HTTP库(如requests)模拟浏览器发送HTTP/HTTPS请求到目标网站,每个请求都包含了URL地址以及可能的请求头信息(如User-Agent、Cookie等)。
  2. 接收响应

    • 当服务器接收到请求后,会返回一个HTTP响应,其中包括状态码、响应头和网页内容(通常是HTML,但也可能是JSON、XML或其他格式)。
  3. 解析内容

    • 使用解析库(如BeautifulSouplxml用于HTML/XML解析,PyQueryparsel等)对响应内容进行解析,从中提取所需的数据。如果是结构化数据如JSON,可以直接使用Python的json模块解析。
  4. 数据处理与存储

    • 抽取后的数据会被进一步处理(清洗、转化等),然后存储在本地文件(如CSV、JSON、TXT等格式)或数据库系统(如MySQL、MongoDB等)中,以便后续分析或构建应用。
  5. URL管理与爬取策略

    • 爬虫还需要一个URL管理机制来跟踪已经访问过的链接,避免重复抓取,并决定接下来要抓取哪个URL,这可以通过内存、数据库或队列等方式实现。同时,爬虫还会涉及到一些高级策略,比如深度优先搜索(DFS)、广度优先搜索(BFS)、优先级队列等。
  6. 反爬与应对措施

    • 针对网站的反爬虫策略,爬虫开发者还可能需要处理cookies、session管理、验证码识别、动态加载内容等问题,甚至采用IP代理池等技术绕过访问限制。

本章节主要讲前面的第一小节:如何获取网页内容


二、 🌈http请求

在这里插入图片描述

  1. 请求行:
解析:方法类型 / 资源路径 (后面可跟查询参数)/ 协议版本
  1. 请求头
解析:域名 / 路径 ?查询参数User-Aent:用来告知服务器客户端的相关信息accept:客户端想接收的响应数据是什么类型的(文件名/类型和任意类型:*/*)
  1. 请求体
解析:存放客户端传给服务器的其他任意数据get的请求体一般是空的

三、 🌈http响应

在这里插入图片描述

  1. 状态行
解析:
协议版本 、状态码、状态消息

在这里插入图片描述

解析:
状态码和状态消息是对应的:(1)2开头的表示成功,请求已经完成处理(2)3开头的表示重定向,需要进一步的操作(3)4开头的表示客户端错误,比如请求里面有错误 或请求的资源无效等(4)5开头的表示服务器错误,比如出现问题或者正在维护
  1. 响应头
解析:
Date:生成响应的日期和时间Content-Type:返回内的类型及编码格式
  1. 响应体
解析:
html网页内容

四、 🌈教程演示

  1. 安装python第三方库requests,打开终端输入 pip install requests

在这里插入图片描述

import  requests
# 获取请求网址 https://books.toscrape.com/ ——专门用于爬虫练习的网站
response=requests.get("https://books.toscrape.com/")
print(response)
print(response.status_code) # 检验请求是否成 返回200则成功

如果输出显示的内容是200,则说明该请求成功,其他则是其他原因,具体可参考请求响应错误原因:HTTP 响应状态码

输出:
在这里插入图片描述

  1. 利用if语句判断和ok的方法,请求成功则返回网页内容(以html的格式打印输出)
import  requests
# 获取请求网址 https://books.toscrape.com/ ——专门用于爬虫练习的网站
response=requests.get("https://books.toscrape.com/")
# 利用判断语句,使用ok的方法获取网页数据
if response.ok:print(response.text) # 获取网页内容
else:print("请求失败")

输出内容:

在这里插入图片描述

五、🌈获取豆瓣top榜上前250部电影的响应内容

豆瓣网网址:https://movie.douban.com/top250

  1. 先看请求情况:
import requests
# 获取豆瓣top榜上前250部电影的响应内容
response=requests.get("https://movie.douban.com/top250")
# 查看获取响应的状态码是什么
print(response.status_code)

输出:

在这里插入图片描述

具体什么是418参考:https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Status/418

在这里插入图片描述

  1. 如何模拟浏览器的构成(请求头)

随便找一个网页,进入控制台,鼠标右键——检查或者按F12 ,网络(刷新)——随便点击一个响应——找到Request Headers里面的User-Agent,复制后面的内容写入代码中。

在这里插入图片描述

代码块:

import requests# 模拟浏览器的构成(请求头)以字典的形式存储,将复制冒号后的内容填写,
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.0.0"
}
# 获取豆瓣top榜上前250部电影的响应内容
response=requests.get("https://movie.douban.com/top250",headers=headers)
# 查看获取响应的状态码是什么
print(response.status_code)
# 打印response的内容
print(response.text)

显示200 ,响应成功且获取信息成功

在这里插入图片描述


本章内容到此结束,谢谢大家的支持,希望本期作品可以简单帮助大家了解爬虫基础
大家一起学习呀!🔥🔥🔥🔥

http://www.yayakq.cn/news/555021/

相关文章:

  • 高端大气的网站首页dw制作一个手机网站模板下载地址
  • 手机建站程序源码如何做网站首页优化
  • 做网站的是不是程序员建设兵团12师教育局网站
  • 网站上的个人词条怎么做的惠州网站建设价格
  • 展开网站建设具体c2c网站建设实例
  • 做风控的网站永久免费个人网站
  • 网站的域名每年都要续费广州制作网站公司
  • 谷歌网站流量统计开发小程序需要备案吗
  • 网站建设怎么寻找客户网站建设书案例
  • 延吉网站优化自己做的网站被封了
  • 做门窗的网站短剧小程序源码
  • 做公司网站写什么信息中国建设银行洛阳分行官网站
  • 如何用本机电脑做网站服务器吗宠物网站建设进度表
  • 开滦建设集团网站wordpress能注册么
  • 网站优化意见网站建设系统设计报告
  • 会员类网站模板电子商务网站问题与解决方案
  • 互联业务登录页 网站中山网站建设品牌
  • 私人可以做org后缀网站吗重庆建设信息
  • 建设商城网站公司百度百科可以看的网站都有哪些
  • 泽州网站设计建设通官方网站
  • 介绍旅游美食的网站模板免费下载网站需要做404页面吗
  • 网站开发文档价格企业网站设计注意
  • 安康做网站的公司电话网页制作与网站建设设计报告
  • 小学网站模板免费下载健康云下载app
  • 新站如何让百度快速收录智慧团建登录不上
  • 网站制作 番禺专业海外网站推广
  • 哪个网站可以查当地建设项目wordpress页面是什么文章
  • 织梦教育网站模板深圳罗湖做网站的公司
  • 西安公司建一个网站需要多少钱建设通官方网站下载e航
  • 东莞网络推广托管百度快照优化排名推广怎么做