当前位置: 首页 > news >正文

30多了学网站建设晚吗有什么做分销的几个网站

30多了学网站建设晚吗,有什么做分销的几个网站,开发门户网站多少钱,房产销售网站设计本篇将会介绍beutifulsoup4模块,可以用于网络爬虫、解析HTML和XML,对于没有接触过前端,不了解HTML是如何工作的,需要先解释一下什么事HTML。 1. HTML 网页中的各种布局等的背后都是非常简单的纯文本格式,那种格式称为…

本篇将会介绍beutifulsoup4模块,可以用于网络爬虫、解析HTML和XML,对于没有接触过前端,不了解HTML是如何工作的,需要先解释一下什么事HTML。

1. HTML

网页中的各种布局等的背后都是非常简单的纯文本格式,那种格式称为HTML
关于HTML不用刻意的去学习,所谓的HTML就是一堆<>括起来的符合或单词,不同的单词就是标签,其对应了不同的作用。

如果在网络上进行通信,获取网页,实际上不会得到我们打开的网页的界面,得到的就是html的代码,而我们关心的可能就是HTML中的一部内容,就需要对HTTML也就是字符串进行解析,找出我们需要的部分。通过python的字符串来进行处理也是可行的,但是考虑到处理的效率,也有相应的开发的模块。

2. 安装bs4

pip install beutifulsoup4

官网文档(中文版):
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

3. 使用BeautifulSoup解析HTML实例

使用的HTML代码如下:来自于官方文档中的范例:ap均为标签

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p><p class="story">...</p>
"""

将其拷贝到一个txt文件,改后缀为html,利用浏览器打开就是一个网页如下:
在这里插入图片描述

  • bs4中提供了BeautifulSoup的方法,它可以将html字符串,转化为一个soup对象。
  • soup对象中提供了各种属性方法,对应了htm文档,使得我们可以很方便地提取相关信息

以下演示如何进行安装、导入模块、进行HTML的缩进美化

C:\Users\>pip install beautifulsoup4
C:\Users\>ipython
In [1]: from bs4 import BeautifulSoup
In [2]: html_doc = """...: <html><head><title>The Dormouse's story</title></head>...: <body>...: <p class="title"><b>The Dormouse's story</b></p>...:...: <p class="story">Once upon a time there were three little sisters; and their names were...: <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,...: <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and...: <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;...: and they lived at the bottom of a well.</p>...:...: <p class="story">...</p>...: """In [3]: soup = BeautifulSoup(html_doc, 'html.parser') #转变为soup对象In [4]: print(soup.prettify()) #把原有HTML源码进行缩进美化
<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>and<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p><p class="story">...</p></body>
</html>

构造得到的soup对象中提供了各种操作的方法。

find_all:找到所有的标签,返回一个list,list中的每个元素,是标签对象。

In [5]: soup.find_all("a")
Out[5]:
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]In [6]: for i in soup.find_all("a"):...:     print(i)...:
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>In [7]: mylist = soup.find_all("a")In [8]: tag0 = mylist[0]In [9]: tag0
Out[9]: <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>In [10]: tag0['href'] #标签类似dict的封装,得到href的value
Out[10]: 'http://example.com/elsie'
In [11]: for item in mylist:...:     print(item["href"])...:
http://example.com/elsie
http://example.com/lacie
http://example.com/tillie

4.学习视频地址:使用python解析网页HTML

http://www.yayakq.cn/news/571526/

相关文章:

  • thinkphp 做门户网站关键词优化提升排名
  • 深圳网站优化平台能做ppt的软件
  • wdcp 网站建设小程序用什么语言开发
  • 校园网站模版广州市中智软件开发有限公司
  • 免费创建个人博客网站wordpress 萌主题下载
  • 织梦网站优化教程手表网站欧米茄报价
  • 大型门户网站建设大概多少钱辽宁招标网招标公告
  • 东莞网站制作购买温州手机网站制作多少钱
  • 网站 手机兼容创建网站的各项费用
  • 专业的做网站软件关于公司网站建设的申请
  • 找人做网站需要什么条件施工企业资质证书封皮
  • 移动互联网 网站建设电子商务做网站设计
  • 润滑油手机网站模板中投建设集团有限公司 网站
  • 怎么区别网站开发语言惠阳住房和城乡建设局网站
  • 大型网站建设制作平台火车头采集网站
  • 骏域网站建设专家电话网站建设的第一阶段
  • 网站tdk优化做网站搞个物理服务器
  • 电子商务专业网站设计关键词排名优化提升培训
  • qq是腾讯的还是阿里的岳阳seo官网
  • 深圳旅游网站开发哪个网站的旅游板块做的好
  • vs2012解决方案做网站做汽车销售要了解的网站
  • 移动开发网站建设做网站用软件
  • 做网站费用上海济南php网站开发
  • 太原网站建设ty556短视频制作价格明细
  • 衡水网站建设公司台州专业网站设计系统
  • 做钢结构网站有哪些网站如何做百度推广方案
  • 图书管理系统网站开发简述电子商务网站建设流程
  • 绵阳安州区做网站的有哪些网站建设满意度调查问卷
  • 网站建设术语 英文网站建设流程 文档
  • 深圳做门户网站的网络公司网站颜色 字体