当前位置: 首页 > news >正文

网站建设补充范本企业文化内容范本

网站建设补充范本,企业文化内容范本,临沂专业网站建设设计公司,网页美工设计的要点有目录 前言 一、正则基本使用 1.1 导包 1.2 接口方法 1.3 换行匹配问题 二、实战案例 完整代码 前言 在爬虫工作中,我们主要会遇到两种类型的文本数据: JSON格式数据 HTML文档数据 对于JSON字符串数据,通常使用Python的字典操作进行键…

目录

前言

一、正则基本使用

1.1 导包

1.2 接口方法

1.3 换行匹配问题

二、实战案例

完整代码


前言

在爬虫工作中,我们主要会遇到两种类型的文本数据:

  1. JSON格式数据

  2. HTML文档数据

对于JSON字符串数据,通常使用Python的字典操作进行键值对提取或者使用正则语法;
对于HTML文档,则主要采用XPath表达式和CSS选择器(bs4)进行数据解析和提取。

一、正则基本使用

1.1 导包

import re

1.2 接口方法

re.findall(参数1,参数2)

参数1:写正则语法,匹配规则

参数2: 字符串数据

例1:匹配 id 的内容

import re
# 1,字符串数据
str = ' <meta id="my name is zhouhuan" http-equiv="Content-Type" content="text/html;charset=utf-8">中国<共??产yes党'
# 2,匹配语法
result = re.findall('id="(.*?)" http',str)
# 3,打印结果
print(result)

.*?:要匹配的内容换成 .*?
() :只会返回括号内的内容

 例2:匹配所有中文

import re
# 1,字符串数据
str = ' <meta id="my name is zhouhuan" http-equiv="Content-Type" content="text/html;charset=utf-8">中国<共??产yes党'
# 2,匹配所有中文
result = re.findall('[\u4e00-\u9fa5]',str)
# 3,打印结果
print(result)


例3:过滤和替换非法字符

import re
# 1,字符串数据
str = "abc?de|fg><hi:jk"
# 2,过滤非法字符
result1 = re.findall('[\\\\/:*?\"<>|]',str)
# 3,替换非法字符
result2 = re.sub('[\\\\/:*?\"<>|]',"_",str)
# 4,打印结果
print("过滤的非法字符有:",result1)
print("替换后的str字符串为:",result2)


1.3 换行匹配问题

import re
# 1,换行匹配问题
str ='''<div>中国共产党万岁</div>
'''
# 2,规则默认是在一行匹配,换行后重新匹配,所以匹配到的是空 []
result = re.findall('<div>(.*?)</div>',str)
# 打印结果
print(result)  # []

解决方案:待定...


二、实战案例

需求:爬取斗鱼直播星秀板块直播的主播《标题》和《网名》

链接(url):星秀直播_星秀视频_斗鱼直播

分析步骤:

1,先抓包找到需要的目标 url

2,先打印一下爬取到的所有数据

完整代码

import re
import requests
# 实战之爬取斗鱼星秀板块主播标题
# 1,目标url
url = 'https://www.douyu.com/wgapi/ordnc/live/web/room/mixList/2/1008/0/1?'
# 2,身份伪装
header={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36"
}
# 3,发起请求
response = requests.get(url=url,headers=header)
# 4,打印响应内容(确认是否获得响应)
# print(response.text)
# 5,使用正则解析:主播标题
title_list = re.findall('"rn":"(.*?)"',response.text)
print(title_list)
# 6,使用正则解析:主播名字
name_list = re.findall('"nn":"(.*?)"',response.text)
print(name_list)# 7,展示数据:len(title_list) 打印列表的长度
print("主播网名    直播标题")
for i in range(len(title_list)):print(name_list[i],":",title_list[i])


 

http://www.yayakq.cn/news/495766/

相关文章:

  • 民治做网站做网站在哪里申请
  • 个人网站在那建设长春最专业的网站建设
  • wordpress表邯郸做seo网站优化
  • 徐州做网站那家好国外室内设计网站推荐
  • 在线做文档的网站黄页88网企业名录搜索软件
  • 垂直门户网站都有什么如何制作百度网页
  • 潍坊网站建设尚荣里水网站建设
  • 魏县做网站网站关键词效果追踪怎么做
  • 学校网站做几级等保可以做mv的视频网站
  • 小型网站运营做网站最好的公司有哪些
  • 多域名一个网站备案wordpress转播
  • 网络营销就是网站营销网站建设必须安装程序
  • 一个公司多个网站做优化兰州网站建设加q.479185700
  • wordpress国内网站备案的网站转移
  • php网站开发入门到精通教程南宁保障住房建设管理服务中心网站
  • 外贸网站推广制作教程平面设计网站有哪些
  • 网站响应时间方案制作商城小程序费用
  • 响应式网站欣赏前端开发需要学什么语言
  • 尉氏网站建设网站外贸推广
  • 建设网站公司不给源代码wordpress 自定义栏目 图片
  • 百度网站怎么制作做教育网站需要规划哪些内容
  • 购物网站开发中查看订单的实现逻辑wordpress 重装教程视频教程
  • 福州 网站建设漂亮的学校网站模板下载
  • 克拉玛依网站建设wordpress 自定义结构 标题
  • 网站seo搜索东营黄河口宠物信息网
  • 免费网站使用怎样做网页制作视频
  • 网站注册域名免费网站网站制作价格建站网站
  • wiki网站开发工具网站的站长是什么意思
  • 门户网站是指提供什么的网站学校网站建设的软件环境
  • 韩国优秀网站杭州网站建设培训