当前位置: 首页 > news >正文

做弹幕网站有哪些wordpress表白系统

做弹幕网站有哪些,wordpress表白系统,金融网站开发目的,故宫文创产品设计在最近需要的需求中,需要 python 获取网页内容,并从html中获取到想要的内容。这里记录一下两个比较常用的python库对html的解析。 1. BeautifulSoup 它是一个非常流行的python脚本库,用于解析HTML和XML文档。如果你对 java 很熟悉&#xff…

在最近需要的需求中,需要 python 获取网页内容,并从html中获取到想要的内容。这里记录一下两个比较常用的python库对html的解析。

1. BeautifulSoup

它是一个非常流行的python脚本库,用于解析HTML和XML文档。如果你对 java 很熟悉,那么就会容易想到java中也存在一个类似的java库,叫Jsoup,名称相似,效果也差不多。BeautifulSoup提供了简单易用的API,可以通过标签名、属性、CSS选择器等各种方式查找和提取HTML元素.

安装

   pip install beautifulsoup4


​ 实例代码:

from bs4 import BeautifulSoup
import requests# 发送请求获取到 html 内容
response = requests.get("https://www.example.com")
html_content = response.text # 创建 BeautifulSoup 对象
soup = BeautifulSoup(html,'html.parser')# 创建 CSS 选择器查找元素
elements = soup.select(".class-name")
for element in elements:print(element.text)

demo:
比如我现在想获取新浪新闻的列表:
在这里插入图片描述
对 html 进行分析,我们可以发现 class name:
在这里插入图片描述
那么我们可以直接填入代码:

def try_to_get_world_news() :response = requests.get("https://news.sina.com.cn/world/")response.encoding = "utf-8"html_data = response.text# 创建 BeautifulSoup 对象soup = BeautifulSoup(html_data, "html.parser")# 通过css选择器cha查找元素elements =  soup.select(".news-item")for element in elements:if element is not None:a_links = element.find_all('a')if a_links is not None and len(a_links) > 0 :a_link = a_links[0]a_text = a_link.text.strip()a_href = a_link.get('href')print("文本:" + a_text + ",链接:" + a_href)

可以看到结果:
在这里插入图片描述

2. lxml

另外一个强大的python库,也是用来处理 HTML 和 XML 文档。当然,它提供了XPath和CSS选择器等功能,也可以很方面的定位和提取HTML库。

安装

   pip install lxml

​当然你还可能需要安装一下 cssselect 这个库

pip install cssselect

​ 代码实例

from lxml import html
import requests
import cssselect# 创建请求对象,获取请求内容
response = requests.get("https://www.example.com")
html_content = response.text# 创建 lxml 的 HTML 对象
tree = html.fromstring(html_content)# 通过 css 选择器查找
elements = tree.cssselect(".class-name")
for element in elements:print(element.text)

demo:
同样也是上面的例子,直接贴代码:

response = requests.get("https://news.sina.com.cn/world/")response.encoding = "utf-8"html_data = response.texttree = html.fromstring(html_data)elements =  tree.cssselect(".news-item")for element in elements:print(element)

直接看结果
在这里插入图片描述

3. BeautifulSoup 和 lxml 优缺点

BeautifulSoup和lxml都是Python中广泛使用的HTML和XML解析库,它们各自有其优势和特点。以下是BeautifulSoup和lxml的主要区别和优势:

BeautifulSoup的优势:

  1. 简单易用:BeautifulSoup提供了一个简单而直观的API,使得解析HTML和XML文档变得非常容易。它的语法简洁明了,即使是初学者也可以快速上手。
  2. 强大的解析能力:BeautifulSoup可以处理不规范的HTML和XML文档,即使文档中存在错误或不完整的标签,它仍然能够正确解析。
  3. 支持多种解析器:BeautifulSoup支持多种底层解析器,如lxml、html.parser和html5lib等。你可以根据需要选择合适的解析器来提高解析性能或处理特定的文档。
  4. 灵活的导航和搜索:BeautifulSoup提供了多种方法来导航和搜索文档树,如通过标签名、属性、CSS选择器等。它还支持使用正则表达式进行搜索和匹配。
  5. 对Python开发者友好:BeautifulSoup是一个纯Python库,它与Python的数据结构和编程风格紧密集成。对于Python开发者来说,使用BeautifulSoup更加自然和便捷。

lxml的优势:

  1. 高性能:lxml是一个高性能的HTML和XML解析库,它使用C语言编写的libxml2和libxslt库作为底层引擎,因此解析速度非常快。
  2. 支持XPath:lxml内置了对XPath的支持,XPath是一种强大的语言,用于在XML和HTML文档中进行导航和查询。使用XPath可以方便地定位和提取所需的元素。
  3. 支持CSS选择器:lxml同样支持使用CSS选择器来查找和提取元素,这对于Web开发者来说非常熟悉和便捷。
  4. 支持XML和HTML的转换:lxml可以将HTML文档转换为well-formed的XML文档,也可以将XML文档转换为HTML文档,这在某些情况下非常有用。
  5. 与其他库的集成:lxml可以与其他Python库很好地集成,如pandas、NumPy等,可以方便地进行数据处理和分析。

区别:

  1. 解析速度:lxml的解析速度通常比BeautifulSoup更快,特别是在处理大型文档时。如果性能是主要考虑因素,lxml可能是更好的选择;
  2. 易用性:BeautifulSoup的API更加简单和直观,对于初学者来说更容易上手。而lxml的API相对更加底层和复杂,需要一定的学习成本。
  3. 文档支持:BeautifulSoup对于处理不规范的HTML文档更加宽容,而lxml更倾向于处理well-formed的XML文档。
  4. 依赖项:BeautifulSoup是一个纯Python库,没有外部依赖。而lxml依赖于C语言编写的libxml2和libxslt库,需要单独安装。

当然,我们的选择就是看自己的需求和偏好了。如果你是性能要求高,追求XPath和其它库的继承,lxml将会是一个比较好的选择;当然,就像我,比较重视简单易用,而且面对的HTML并不是特别的规范,我就会选择 BeautifulSoup。

http://www.yayakq.cn/news/620747/

相关文章:

  • 网站建设公司厦门有哪些网站点击量查询
  • 无版权视频素材网站网站建设中 倒计时
  • 北京网站建设公司如何排版翠竹林wordpress主题
  • 网站设计制作的服务怎么样给关亨做网站的设计公司
  • 网站建设专家如何选首页标题在哪里打开
  • 济南网站建设求职入门网站建设
  • 深圳公司免费网站建设做那个类型的网站赚钱
  • 网站建设与管理难不难晋江做任务的网站
  • wordpress js链接许昌seo推荐
  • 网站优化排名首页大气公司网站源码 企业网页模板建站 制作asp程序后台 中英文代码
  • 标签式网站内容管理中信建设有限责任公司 联系方式
  • 线下推广怎么做镇江网站优化公司
  • 建设pc端网站是什么意思海丰县建设局官方网站
  • 山东省住房建设厅网站安全处网站竞价推广
  • 东莞网站建设网站排名优化提升网站响应时间
  • 先做网站先备案平面设计免费软件有哪些
  • 360免费建站连接湖州佳成建设网站
  • 做商城网站需要多大的服务器校园网站设计毕业设计
  • 陕西做网站的公司在哪快速收录网站
  • 北京网站设计公司新鸿儒网站外链建设
  • 北京哪里可以申请企业网站域名官网网站做下载word
  • 深圳定制网站建设禅城区网站建设
  • 网站建设公司官方网站自贡市城市建设投资开发集团有限公司网站
  • 企业网站开发是什么临沂网站制作网站
  • 河北廊坊建设银行网站国外黄冈网站推广
  • 高校二级网站建设要求自己做网站和凡科的区别
  • 怎么用记事本做网站wordpress为什么速度慢
  • 哪些网站做科技专题短视频推广平台有哪些
  • 云南省做网站开发的公司排名新片场视频素材
  • 房屋结构自建设计 网站四川省建设厅官方网站