当前位置: 首页 > news >正文

广西城乡建设名网站wordpress 禁止头像

广西城乡建设名网站,wordpress 禁止头像,网站的建设期,汕头提供关键词平台本项目纯学习使用。 1 scrapy 代码 爬取逻辑非常简单,根据url来处理翻页,然后获取到详情页面的链接,再去爬取详情页面的内容即可,最终数据落地到excel中。 经测试,总计获取 11299条中医药材数据。 import pandas as…

本项目纯学习使用。

1 scrapy 代码

爬取逻辑非常简单,根据url来处理翻页,然后获取到详情页面的链接,再去爬取详情页面的内容即可,最终数据落地到excel中。
经测试,总计获取 11299条中医药材数据。

import pandas as pd
import scrapyclass ZhongyaoSpider(scrapy.Spider):name = "zhongyao"start_urls = [f"https://www.zysj.com.cn/zhongyaocai/index__{i}.html" for i in range(1, 27)]def __init__(self, *args, **kwargs):self.data = []def parse(self, response):for li in response.css('div#list-content ul li'):a_tag = li.css('a')title = a_tag.css('::attr(title)').get()href = a_tag.css('::attr(href)').get()if title and href:# 构建完整的详情页 URLdetail_url = response.urljoin(href)yield scrapy.Request(detail_url, callback=self.parse_detail, meta={'title': title})# 解析逻辑def parse_detail(self, response):title = response.meta['title']pinyin = response.css('div.item.pinyin_name_phonetic div.item-content::text').get(default='').strip()alias = response.css('div.item.alias div.item-content p::text').get(default='').strip()english_name = response.css('div.item.english_name div.item-content::text').get(default='').strip()source = response.css('div.item.alias div.item-content p::text').get(default='').strip()# 性味flavor = response.css('div.item.flavor div.item-content p::text').get(default='').strip()functional_indications = response.css('div.item.flavor div.item-content p::text').get(default='').strip()usage = response.css('div.item.usage div.item-content p::text').get(default='').strip()excerpt = response.css('div.item.excerpt div.item-content::text').get(default='').strip()#habitat = response.css('div.item.habitat div.item-content p::text').get(default='').strip()# 出处provenance = response.css('div.item.provenance div.item-content p::text').get(default='').strip()# 性状shape_properties = response.css('div.item.shape_properties div.item-content p::text').get(default='').strip()# 归经attribution = response.css('div.item.attribution div.item-content p::text').get(default='').strip()#  原形态prototype = response.css('div.item.prototype div.item-content p::text').get(default='').strip()# 名家论述discuss = response.css('div.item.discuss div.item-content p::text').get(default='').strip()# 化学成分chemical_composition = response.css('div.item.chemical_composition div.item-content p::text').get(default='').strip()item = {'title': title,'pinyin': pinyin,'alias': alias,'source': source,'english_name': english_name,'habitat': habitat,'flavor': flavor,'functional_indications': functional_indications,'usage': usage,'excerpt': excerpt,'provenance': provenance,'shape_properties': shape_properties,'attribution':  attribution,'prototype': prototype,'discuss': discuss,'chemical_composition': chemical_composition,}self.data.append(item)yield itemdef closed(self, reason):# 当爬虫关闭时,保存数据到 Excel 文件df = pd.DataFrame(self.data)df.to_excel('zhongyao_data.xlsx', index=False)

2 爬取截图

在这里插入图片描述

3 爬取数据截图

在这里插入图片描述

http://www.yayakq.cn/news/890226/

相关文章:

  • 定制开发网站视频制作培训机构
  • 南沙滩网站建设绿色网站配色
  • 网站备案变更单位名称东营住房和城乡建设官网
  • 做公司网站需要了解哪些东西网店装修的流程是什么
  • 微网站模板多少钱房地产网站加盟
  • 银川网站设计怎么样2345网页游戏
  • 优秀网站作品网站上发布的内容字体多少合适
  • 桂林网站建设培训班做电影网站哪个系统好
  • 响应式网站建设特征山东手机在线app
  • 网站开发流程管理制作网页网站
  • 苏州网站建设caiyiduo溧阳常州做网站
  • 网站播放视频速度优化建设城市2的游戏在哪个网站
  • 南沙网站建设公司哪家好seo推广服务
  • 深圳市网络seo推广价格南昌seo优化公司
  • 网站建设推广怎么玩什么网站做首页
  • 南昌优化网站分析小程序介绍范文
  • 铁岭网站建设公司网站建设如何提案
  • 网站加速器下载在线域名查询
  • 祥云平台网站建设苏州建网站必去苏州聚尚网络
  • 做个网站设计多少钱专业客户管理系统
  • 集团网站设计方案潍坊百姓网免费发布信息网
  • 智慧团建网站入口pc端wordpress页面中去掉分页
  • 做网站用什么框架wordpress更改主题背景
  • 淮安网站建设多少钱湖南省网站建设
  • 长春网站制作wang不是用于制作网页的软件
  • 阿里云虚拟主机可以做几个网站e福州官方网站
  • 谁能做网站开发网站备案需要多久
  • 网站制作公司排名旅游网站设计理念
  • 襄阳旅游景点网站建设廊坊网站建设精灵
  • 网站建设需求指引WordPress 经典编辑器