当前位置: 首页 > news >正文

一件代发48个货源网站企业网站深圳

一件代发48个货源网站,企业网站深圳,网站查询空间商,国内国际时事写实记录50字配图片python爬虫入门(实践) 一、对目标网站进行分析 二、博客爬取 获取博客所有h2标题的路由 确定目标,查看源码 代码实现 """ 获取博客所有h2标题的路由 """url "http://www.crazyant.net"import re…

python爬虫入门(实践)

一、对目标网站进行分析

在这里插入图片描述
在这里插入图片描述

二、博客爬取

  1. 获取博客所有h2标题的路由

    1. 确定目标,查看源码
      在这里插入图片描述

    2. 代码实现

      """
      获取博客所有h2标题的路由
      """url = "http://www.crazyant.net"import requests
      from bs4 import BeautifulSoup#发送请求,获取页面所有内容
      r = requests.get(url)
      if r.status_code != 200:raise Exception("请求失败") # 抛出异常
      html_doc = r.text# 解析html,获取对应信息
      soup = BeautifulSoup(html_doc,"html.parser")h2_nodes = soup.find_all("h2",class_="entry-title")for h2_node in h2_nodes:link = h2_node.find("a")print(link["href"],link.get_text())
      
  2. 通过标题爬取所有博客文章

    """
    爬取所有博客文章
    """
    import refrom utils import url_manager
    import requests
    from bs4 import BeautifulSouproot_url="http://www.crazyant.net"# 将root_url添加到urls中
    urls = url_manager.UrlManager()
    urls.add_new_url(root_url)# 获取所有页面内容,并保存到文件
    fout = open("craw_all_pages.txt","w",encoding="utf-8")
    while urls.has_new_url():curr_url = urls.get_url()r = requests.get(curr_url,timeout=2)if r.status_code != 200:print("请求失败",curr_url)continuesoup = BeautifulSoup(r.text,"html.parser")title = soup.title.string # 获取标题fout.write('%s\t%s\n' % (curr_url, title))# 写入文件fout.flush()# 刷新缓冲区,直接写入文件print("success: %s, %s, %d"%(curr_url,title,len(urls.new_urls)))# 获取所有链接, 并添加到urls中links = soup.find_all("a")for link in links:href = link.get("href")if href is None:continuepattern = r"^http://www.crazyant.net/\d+.html$" # 匹配规则,匹配以http://www.crazyant.net/开头,并且以.html结尾的url# 正则匹配, 返回一个匹配对象,如果没有匹配到,返回Noneif re.match(pattern,href):urls.add_new_url(href)fout.close()
    
  • 运行结果
    在这里插入图片描述
http://www.yayakq.cn/news/754430/

相关文章:

  • 做网站租什么服务器济南产品设计公司
  • 平度城乡建设局网站wordpress 4.9更新
  • 江苏网站seo义乌建设局网站
  • 三方物流网站建设百度推广代理商返点
  • 赣州网站建设案例企业小程序制作开发
  • 网站备案查询你wordpress 大图 主题
  • 制作简单的站点推广方案网站开发的试题
  • 网站如何运营石家庄住房和城乡建设局官网
  • 沧州网站建设费用网站跳出率是什么意思
  • 网站开发设计各部门职责海外网络推广外包
  • 东莞做网站公司首选!广东网站备案
  • 网站的文件结构河南省的网页制作
  • 做盗版电影网站吗小程序h5页面
  • 万网 填写网站备案信息彩票源码网站的建设
  • 筑巢网站百度网盘搜索引擎入口在哪
  • 网站seo公司wordpress服务器带宽
  • 杭州设计网站的公司wordpress中注册功能
  • 潞城市网站建设公司大足网站建设
  • 如何做网站关键字优化网络工程师是干什么的
  • php网站开发都需要什么软件怎么做网站引流
  • 广西网站建设公司电话上海公司做网站的价格
  • 长治建网站衡水手机网站建设
  • 怎么制作网站下载软件logo参考网站
  • 成都网站快速排名软件音频网站模板
  • 深圳招聘网站有哪些企业电子商务网站建设的最终目的
  • 免费搭建企业网站傻瓜式建站平台
  • 购物网站开发需求文档商务网站运营与管理
  • 有关网站开发的文献杭州做网站好的公司
  • 如何自己制作网站找家里做的工作到什么网站
  • 徐州专门做网站新品发布会领导致辞稿