当前位置: 首页 > news >正文

网站怎么做留言的创建一个app需要什么

网站怎么做留言的,创建一个app需要什么,茂名seo站内优化,淘宝客单页网站这是栖落的电影网站地址:https://xxx.xxx 进入网页,显示: 爬取目标:电影的名称、观影人数和评分。 易知本网站的url url "https://xxx.xxx" 本网站会识别出headers中的python请求而拒绝访问,所以需要更改…

这是栖落的电影网站地址:https://xxx.xxx

进入网页,显示:

 爬取目标:电影的名称、观影人数和评分。

易知本网站的url

url = "https://xxx.xxx"

本网站会识别出headers中的python请求而拒绝访问,所以需要更改headers当中的信息

user-agent:

 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/11.0.1587.41

对应的代码为:

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/11.0.1587.41"

选中目标

 利用正则表达式匹配相应的信息。

obj = re.compile(r'<li>.*?标志1.*?标志2.*?标志1.*?标志2.*?标志1.*?标志2.*?</li>',re.S)

红色的.*?匹配需要的信息,其余的过滤掉多余的信息,各个标志为.*?的左右端的关键信息,r为requests模块返回的text文本。 

并且我们需要为匹配的信息赋予相应的意义,即名、观影人数和评分。

利用(?<别名>)

obj = re.compile(r'<li>.*?标志1(?P<name>.*?)标志2.*?标志1(?P<num>.*?)标志2.*?标志1<?P<score>.*?)标志2.*?</li>',re.S)

把匹配的对象放入list中以便遍历。

result = obj.finditer(r)

遍历且以一定格式输出。

 for it in result:
    print("{:<10s}{:<5s{<5s}".format(it.group("name"),it.group("num"),it.group("score")))

参考代码: 

import requests
import re#获取页面信息
url = "https://xxx.xxx"
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/11.0.1587.41"
}
r = requests.get(url,headers=headers)
r = r.text
#print(r)
#解析页面
obj = re.compile(r'<li>.*?<span class="title">(?P<name>.*?)</span>.*?<br>(?P<num>.*?)&nbsp.*?<span class="rating_num" property="v:average">(?P<score>.*?)</li>',re.S)
#匹配
result = obj.finditer(r)
#输出
for it in result:print("{:<10s}{:<5s{<5s}".format(it.group("name"),it.group("num"),it.group("score")))

输出结果: 

小结: 

如何爬取本站?

  1. 确定url
  2. 更改headers
  3. 请求页面信息
  4. 正则匹配
  5. 输出

提问 :

re.compile是啥?

compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象。

语法格式如下:re.compile(pattern,[flags])

参数:

pattern : 一个字符串形式的正则表达式

flags : 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:

  • re.I :忽略大小写
  • re.L :表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
  • re.M :多行模式
  • re.S :即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
  • re.U :表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
  • re.X :为了增加可读性,忽略空格和 # 后面的注释

 finditer是啥?

finditer 返回一个可迭代对象

http://www.yayakq.cn/news/909718/

相关文章:

  • 网站别名ui设计与制作
  • 网站内容策划方案tomcat做网站并发
  • 全站flash网站引流推广的方法
  • 邯郸做网站公司还有哪些网站做产品众筹
  • 网站首页作用产品毕业设计作品网站
  • 东莞网站设计效果网站建设模板源码特效
  • 个人网站设计与制作代码怎么注册企业网站域名
  • wordpress防36kr长沙做网站seo
  • 为网站开发软件广州站是不是广州火车站
  • 个人域名备过案了做电影网站会查吗深圳网站设计定制开发
  • 电子商务网站规划与网页制作晋州建设规划局网站
  • php网站开发实例教程百度上海团购网站建设
  • 优化设计官方网站长春网络推荐
  • 电脑做网站服务器教程网站建设伍金手指下拉7
  • 汉中网站seo我想给图书网站做代理
  • 石家庄新钥匙网站有了源代码怎么做网站
  • 科技网站设计公司排名企业网站建设流程步骤
  • 国际网站群建设方案wordpress分类树
  • 建设视频网站需要什么知识电影院网站建设方案
  • 聊城做网站优化公司网站免费自建
  • 网站制作地点wordpress维护费用
  • 做建材加盟什么网站好wordpress搬家到本地
  • 企业网站用什么套站城乡住房建设厅网站首页
  • 驻马店做网站上土巴兔装修土巴兔装修
  • 网红网站建设视频怎么添加wordpress
  • 拍摄网网站优化排名分享隐迅推
  • dedecms 网站地图模板网站卖给别人后做违法信息
  • 找大学生做家教去哪个网站找好互动平台网站建设
  • 海盐建设局网站企业网站建设一条龙全包
  • 网站建设报价单下载移动端网站建设原则