当前位置: 首页 > news >正文

宁波建设网站制作小程序制作公司选卓越华网天下

宁波建设网站制作,小程序制作公司选卓越华网天下,青海省公路建设总公司网站,石碣镇网站建设python爬虫-bs4 目录 python爬虫-bs4说明安装导入 基础用法解析对象获取文本Tag对象获取HTML中的标签内容find参数获取标签属性获取所有标签获取标签名嵌套获取子节点和父节点 说明 BeautifulSoup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数…

python爬虫-bs4

目录

  • python爬虫-bs4
    • 说明
      • 安装
      • 导入
    • 基础用法
      • 解析对象
      • 获取文本
      • Tag对象
        • 获取HTML中的标签内容
        • find参数
        • 获取标签属性
        • 获取所有标签
        • 获取标签名
        • 嵌套获取
        • 子节点和父节点

说明

BeautifulSoup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据

在爬虫项目中经常会遇到不规范、及其复杂的HTML代码

BeautifulSoup4提供了强大的方法来遍历文档的节点以及根据各种条件搜索和过滤文档中的元素。你可以使用CSS选择器、正则表达式等灵活的方式来定位和提取所需的数据

安装

pip install BeautiifulSoup4

导入

from bs4 import BeautifulSoup

基础用法

解析对象

soup = BeautifulSoup('目标数据','解析器')

目前有三种主流解析器

  • html.parser
  • lxml(推荐)
  • html5lib

获取文本

获取文本的方法两种方式textcontents

contents

from bs4 import BeautifulSoupdata = """
<h1>Welcome to BeautifulSoup Practice</h1><div class="article"><h2>Article Title</h2><p>This is a paragraph of text for practicing BeautifulSoup.</p><a href="https://www.example.com">Link to Example Website</a>
"""
soup = BeautifulSoup(data, 'lxml')
print(soup.contents)
# 输出:
"""
[<html><body><h1>Welcome to BeautifulSoup Practice</h1>
<div class="article">
<h2>Article Title</h2>
<p>This is a paragraph of text for practicing BeautifulSoup.</p>
<a href="https://www.example.com">Link to Example Website</a>
</div></body></html>]
"""

text

print(soup.text)
"""
Welcome to BeautifulSoup PracticeArticle Title
This is a paragraph of text for practicing BeautifulSoup.
Link to Example Website
"""

Tag对象

获取HTML中的标签内容

比如<p> <div>

示例:

print(soup.h2)
# <h2>Article Title</h2>print(soup.h2.text)
# Article Title
find参数

获取class要加下划线,因为在python中它属于关键字,除了class还可以换成任意属性名

data = """
<h1>Welcome to BeautifulSoup Practice</h1><div class="article"><p>This is a paragraph of text for practicing BeautifulSoup.</p></div><div class="ex2"><p>This is a abcd.</p></div>
"""
soup = BeautifulSoup(data, 'lxml')
print(soup.find('div', class_='article'))
获取标签属性
data = ' <p id = "apple">This is a paragraph of text for practicing BeautifulSoup.</p>'
soup = BeautifulSoup(data, 'lxml')
tag = soup.find('p')
print(tag.get('id'))
# apple
获取所有标签
soup = BeautifulSoup(data, 'lxml')
print(soup.find_all('p'))
# [<p>This is a paragraph of text for practicing BeautifulSoup.</p>, <p>This is a abcd.</p>]print(len(soup.find_all('p')))
# 2

括号为空则获取全部标签

获取标签名
print(soup.div.name)
# div
嵌套获取

示例HTML如下

html = '''
<div class="article"><h2>Article Title</h2><p>This is a paragraph of text for practicing BeautifulSoup.</p><p>This is a abcd.</p><a href="https://www.example.com">Link to Example Website</a>
</div>
'''

目标:获取div下的所有p标签内容

print(soup.find('div', class_='article').find_all('p'))
子节点和父节点
soup = BeautifulSoup(data, 'lxml')
# 遍历获取所有父节点
for item in soup.p.parents:print(item)# 遍历获取所有子节点
for i in soup.p.children:print(soup.p.children)
http://www.yayakq.cn/news/6779/

相关文章:

  • 流量查询中国移动官方网站不会写代码如何做网站
  • 一学一做教育视频网站网站制作者
  • 沈阳酒店团购网站制作邢台市桥西住房建设局网站
  • 网站开发补充合同国内大的做网站的公司
  • 网站建设开发方式网站建设图片如何优化
  • 单位网站的作用珠海附近交友平台软件
  • 马鞍山网站建设价格表格制作
  • 网站运营谁都可以做吗1688网站首页
  • 快递网站制作福田企业网站建设
  • 网站推广是做什手机全屋定制设计app
  • 网站后台更新文章 前台不显示兰州网站设计公司有哪些
  • 凉州区新农村建设网站烟台制作网站的公司简介
  • wordpress网站响应时间太长网站建设流程新闻
  • 廊坊网站建设公司哪个好cad效果图怎么制作
  • 网站查看厦门建设网站制作
  • 网站建设服务采购方案模板网站建设论文 网站建设论文
  • 做游戏视频网站前端开发教程
  • 云南网站开发培训机构汽车门户网站源码
  • 连云港市建设工程质量监督站网站网站做轮播图的意义
  • 南昌网站建设平台网络舆情监测内容
  • 泰兴市网站建设google 推广优化
  • 建电影网站教程丹东电信网站备案
  • 百度网站分析上海企业信息
  • 做网站相关的英文名词少儿编程加盟有哪些
  • 上海松江区网站建设公司酷播wordpress视频插件
  • 广西桂建云证件查询什么是优化产业结构
  • 糗事百科网站模板佛山网络排名优化
  • 商丘网站公司电话号码电商平台开发系统软件平台
  • 吉浦网站建设安徽省住房和城乡建设厅网站领域
  • 网站型和商城型有什么区别假冒网站能通过备案登记吗