当前位置: 首页 > news >正文

南充市住房和城乡建设厅官方网站网站建设 百度云盘

南充市住房和城乡建设厅官方网站,网站建设 百度云盘,深圳市龙华区民治街道,注册公司的网站python爬虫入门(实践) 一、对目标网站进行分析 二、博客爬取 获取博客所有h2标题的路由 确定目标,查看源码 代码实现 """ 获取博客所有h2标题的路由 """url "http://www.crazyant.net"import re…

python爬虫入门(实践)

一、对目标网站进行分析

在这里插入图片描述
在这里插入图片描述

二、博客爬取

  1. 获取博客所有h2标题的路由

    1. 确定目标,查看源码
      在这里插入图片描述

    2. 代码实现

      """
      获取博客所有h2标题的路由
      """url = "http://www.crazyant.net"import requests
      from bs4 import BeautifulSoup#发送请求,获取页面所有内容
      r = requests.get(url)
      if r.status_code != 200:raise Exception("请求失败") # 抛出异常
      html_doc = r.text# 解析html,获取对应信息
      soup = BeautifulSoup(html_doc,"html.parser")h2_nodes = soup.find_all("h2",class_="entry-title")for h2_node in h2_nodes:link = h2_node.find("a")print(link["href"],link.get_text())
      
  2. 通过标题爬取所有博客文章

    """
    爬取所有博客文章
    """
    import refrom utils import url_manager
    import requests
    from bs4 import BeautifulSouproot_url="http://www.crazyant.net"# 将root_url添加到urls中
    urls = url_manager.UrlManager()
    urls.add_new_url(root_url)# 获取所有页面内容,并保存到文件
    fout = open("craw_all_pages.txt","w",encoding="utf-8")
    while urls.has_new_url():curr_url = urls.get_url()r = requests.get(curr_url,timeout=2)if r.status_code != 200:print("请求失败",curr_url)continuesoup = BeautifulSoup(r.text,"html.parser")title = soup.title.string # 获取标题fout.write('%s\t%s\n' % (curr_url, title))# 写入文件fout.flush()# 刷新缓冲区,直接写入文件print("success: %s, %s, %d"%(curr_url,title,len(urls.new_urls)))# 获取所有链接, 并添加到urls中links = soup.find_all("a")for link in links:href = link.get("href")if href is None:continuepattern = r"^http://www.crazyant.net/\d+.html$" # 匹配规则,匹配以http://www.crazyant.net/开头,并且以.html结尾的url# 正则匹配, 返回一个匹配对象,如果没有匹配到,返回Noneif re.match(pattern,href):urls.add_new_url(href)fout.close()
    
  • 运行结果
    在这里插入图片描述
http://www.yayakq.cn/news/646497/

相关文章:

  • 商城网站的psd模板免费下载好网站制作
  • 大型营销型网站制作网站服务器租用多少钱
  • app哪个网站开发好好用的wordpress模板
  • 哈尔滨网站制作工程用什么工具建设网站
  • 余杭区网站建设微网站开发系统
  • 网站关键词排名优化工具四川新站优化
  • ps网站设计概述炉石卡牌制作网页
  • 深圳网站建设定制平台wordpress portfolio
  • 网站制作ppt模板wordpress 表格 链接地址
  • 更合网站开发门户网站建设如何入账
  • 电商网站开发教材营销型网站名词解释
  • 编写网站方案设计书表格什么建设网站
  • 中企动力近期做的网站广告公司广告设计
  • 阿里云空间部署网站吗创建网站平台要多少钱
  • 雷州网站建设公司株洲头条新闻
  • 青岛seo整站优化公司企业网站建设服务好
  • 我国档案网站建设研究论文wordpress博客 文章格式
  • 做网站网站湖南企业seo优化报价
  • 四川省微信网站建设推广wordpress炫酷插件
  • 模板网站的缺陷app排名优化公司
  • 宣城网站建设上位机软件开发教程
  • 洛阳市城市建设网站从事网站开发方向
  • 做微商网站公司网站建设平台招商
  • python可以做网站前端温州网站建设案例
  • 太原模板建站系统广东建设网 四川是什么网站
  • 网站h标签wordpress带微信二维码
  • 网站js代码不显示wordpress code插件
  • 虚拟服务器怎样做网站wordpress添加一个论坛
  • 长沙做网站哪里好上海有哪些互联网大厂
  • 如何线下宣传网站自己做网站要会什么