当前位置: 首页 > news >正文

网站 审批号周口市住房和城市建设局网站

网站 审批号,周口市住房和城市建设局网站,十大骗子教育培训机构,长春公司做网站想要每天看到新闻数据又不想占用太多时间去整理,萌生自己抓取新闻网站的想法。 1. 准备工作 使用python语言可以快速实现,调用BeautifulSoup包里面的方法 安装BeautifulSoup pip install BeautifulSoup完成以后引入项目 2. 开发 定义请求头&#xf…

想要每天看到新闻数据又不想占用太多时间去整理,萌生自己抓取新闻网站的想法。

1. 准备工作

使用python语言可以快速实现,调用BeautifulSoup包里面的方法
安装BeautifulSoup

pip install BeautifulSoup

完成以后引入项目

2. 开发

定义请求头,方便把请求包装成正常的用户请求,防止被拒绝

headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36"
}

定义被抓取的url,并请求加上请求头

    response = requests.get(url=url, headers=headers)

BeautifulSoup解析

    soup = BeautifulSoup(response.text, "html.parser")

分析网站需要提取数据的标签![在这里插入图片描述](https://img-blog.csdnimg.cn/b687fdc39a0d4f1999a5492b70fda4a5.png在这里插入图片描述
因为获取的对象是li标签的第一个,即

        divs = soup.find(class_="js-item item")

这样默认就是第一个,如果需要获取全部,则需要find_all,遍历集合
防止获取到的新闻是当天的做一个日期判断

        a = first_div.find(class_="title")if a.getText().__contains__(datetime.date.today().strftime("%#m月%#d日")):

日期存在title里面所以为了判断单独取一下信息
然后要取到最新日期的新闻自己的url,并get请求这个url
在这里插入图片描述

            b = a.get('href')response = requests.get(url=b, headers=headers)soup = BeautifulSoup(response.text, "html.parser")

打开新的网址后分析网站标签信息

在这里插入图片描述
取这个标签,获取到p标签的值

            body = soup.find(class_="post_body")p = body.find_all('p')

获取到的是个数组,去掉第一个元素,从第二个开始即是我们需要的结果

            p_id_tag = p[1].__str__()

输出的信息带有元素标记,使用正则处理一下

            raw_text = re.findall(r'<p[^>]*>(.*?)</p>', p_id_tag).__str__()# 去掉 HTML 标签并换行显示clean_text = raw_text.replace('<br/>', '\n').replace('<p>', '').replace('</p>', '').replace("']","").replace("['", "").replace(r"\u200b", "")

然后把抓取的信息写入txt

            file = open("C:\\Users\\Administrator\\Desktop\\每日新闻" + '.txt','w', encoding='utf-8')file.write(clean_text)file.close()

最后使用定时任务每天定时抓取,这样就可以每天更新了

    schedule.every().day.at("08:00").do(getNews)while True:schedule.run_pending()time.sleep(1)

运行效果
在这里插入图片描述

http://www.yayakq.cn/news/62261/

相关文章:

  • 网站开发项目开发百度营销大学
  • 门户网站开发哪种语言比较好泉州找工作哪个网站好
  • wordpress小工具不见了商丘seo
  • 贵州建设工程招投标网站微信官方小程序开发工具
  • 建设部人事司网站基于wordpress的网站
  • 游戏钓鱼网站怎么做沈阳网站开发
  • 怎么样申请网站成安企业做网站推广
  • 淘宝网站的推广方案项目开发平台有哪些
  • 山东做网站建设公司百度手机助手官方正版
  • 盐城网站建设24gx赣州朝扬网络科技有限公司
  • 杭州高端定制网站网站栏目下拉菜单
  • 北京网站开发怎么做wordpress 卖票的插件
  • 好域名做网站网站建站网站建站
  • 网页自助建站基础软件开发
  • 贵阳门户网站wordpress如何重置后台密码
  • 网站做弹窗广告吗小型旅游网站
  • 装修网站是怎么建设的网络营销百度百科
  • 网站建设综合案例网站备案主办单位错误
  • 用jsp做的二手交易网站网站维护包括哪些内容
  • 聊城九洲建设有限公司网站网络运维工程师简历怎么写
  • 营销网站制作设计如何做文档附网站
  • 自己可以接单做网站吗手机版网站开发用什么语言
  • 可信网站可信站点wordpress 提交 没反应
  • 云南省建设厅网站首页asp.net做报名网站
  • 可用的ftp网站石家庄搭建网站
  • 绵阳微信网站seo外链是什么
  • 做哪些网站比较赚钱福州网站建设哪家强
  • 学ps做兼职的网站有哪些石家庄谷歌推广
  • 顺的网站建设案例wordpress添加分类目录
  • 酒店网站建设方案策划方案网络营销模式和电子商务模式是一对紧密相关