当前位置: 首页 > news >正文

医院做网站怎么就违规了那个网站可教做课件好

医院做网站怎么就违规了,那个网站可教做课件好,做网站怎么防止被网警查到,河北建设工程信息网网址爬虫案例—根据四大名著书名抓取并存储为文本文件 诗词名句网:https://www.shicimingju.com 目标:输入四大名著的书名,抓取名著的全部内容,包括书名,作者,年代及各章节内容 诗词名句网主页如下图&#x…

爬虫案例—根据四大名著书名抓取并存储为文本文件

诗词名句网:https://www.shicimingju.com

目标:输入四大名著的书名,抓取名著的全部内容,包括书名,作者,年代及各章节内容

诗词名句网主页如下图:

Screenshot 2024-01-18 at 10.51.19

今天的案例是抓取古籍板块下的四大名著,如下图:

Screenshot 2024-01-18 at 10.57.29案例源码如下:

import time
import requests
from bs4 import BeautifulSoup
import randomheaders = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36', }# 获取响应页面,并返回实例化soup
def get_soup(html_url):res = requests.get(html_url, headers=headers)res.encoding = res.apparent_encodinghtml = res.content.decode()soup = BeautifulSoup(html, 'lxml')return soup# 返回名著的书名及对应的网址字典
def get_book_url(page_url):book_url_dic = {}soup = get_soup(page_url)div_tag = soup.find(class_="card booknark_card")title_lst = div_tag.ul.find_all(name='li')for title in title_lst:book_url_dic[title.a.text.strip('《》')] = 'https://www.shicimingju.com' + title.a['href']return book_url_dic# 输出每一章节内容
def get_chapter_content(chapter_url):chapter_content_lst = []chapter_soup = get_soup(chapter_url)div_chapter = chapter_soup.find(class_='card bookmark-list')chapter_content = div_chapter.find_all('p')for p_content in chapter_content:chapter_content_lst.append(p_content.text)time.sleep(random.randint(1, 3))return chapter_content_lst# 主程序
if __name__ == '__main__':# 古籍板块链接gj_url = 'https://www.shicimingju.com/book'url_dic = get_book_url(gj_url)mz_name = input('请输入四大名著名称: ')mz_url = url_dic[mz_name]soup = get_soup(mz_url)abbr_tag = soup.find(class_="card bookmark-list")book_name = abbr_tag.h1.textf = open(f'{book_name}.txt', 'a', encoding='utf-8')f.write('书名:'+book_name+'\n')print('名著名称:', book_name, end='\n')p_lst = abbr_tag.find_all('p')for p in p_lst:f.write(p.text+'\n')mulu_lst = soup.find_all(class_="book-mulu")book_ul = mulu_lst[0].ulbook_li = book_ul.find_all(name='li')for bl in book_li:print('\t\t', bl.text)chapter_url = 'https://www.shicimingju.com' + bl.a['href']f.write(bl.text+'\n')f.write(''.join(get_chapter_content(chapter_url))+'\n')f.close()

Screenshot 2024-01-18 at 11.12.49

Screenshot 2024-01-18 at 11.14.54

http://www.yayakq.cn/news/564250/

相关文章:

  • 江岸区网站公司怎样开发公司的网站建设
  • 一流本科专业建设网站西安网站建设开发
  • 做网站服务器是什么百度的广告
  • 用哪个平台做网站好企业网站运行通知
  • 西安的网站设计公司名称质量好网站建设商家
  • 邮编域名做网站cpa推广平台
  • 做360网站首页软件自学网站建设看哪本书
  • 表白网站在线生成免费拼多多seo是什么意思
  • 中国设计网站排行榜前十名厚街网站建设报价
  • 网站建设 推广全流程网站建设公司+长春
  • 做网站卖东西赚钱央视叫停校外培训机构
  • ps做的网站保存不了jpg免费网络电视直播
  • h5网站开发价格手机制作海报
  • 浙江温州城乡建设网站常用的网站推广方法有哪些
  • 无锡在线制作网站做机械毕业设计哪个网站好
  • 中国建设银行甘肃省分行官网站如何做百度推广的网站
  • php企业网站管理系统天津网站建设企业
  • wordpress自定义文章页面模板下载网站seo基本流程
  • 网站建设需要学习哪些网站开发亿玛酷1专注
  • 快速知彼网络网站建设国内联盟wordpress插件
  • 欧美在路边给了钱就可以做网站阿里云虚拟主机如何上传网站
  • 八大处网站建设做机械的外贸网站
  • 网站建设设计制作公司做python一个网站
  • 邯郸网站设计公司wordpress 查看原图
  • 门户网站的营销特点陕西省城乡建设网站
  • 泸州建设厅官方网站公司装修办公楼
  • 浙江高端网站建设wordpress与typecho
  • 南山建站公司网站运维托管
  • 外卖平台做网站上海景观设计公司
  • wordpress 搜索小工具邱县seo整站排名