当前位置: 首页 > news >正文

网站建设费用明细著名营销成功案例

网站建设费用明细,著名营销成功案例,wordpress媒体插件,企业网站建设 招标 评分表一、爬虫页面分类 1.想要爬取的内容全部在标签中,可以使用xpath去进行解析如下图 2.想要爬取的内容呈现json的数据特征,用.json()转换为字典格式 3.页面不规则,标签中包含大括号,如下面想要获取键值内容怎么做,先用re正…

一、爬虫页面分类


1.想要爬取的内容全部在标签中,可以使用xpath去进行解析如下图

2.想要爬取的内容呈现json的数据特征,用.json()转换为字典格式

3.页面不规则,标签中包含大括号,如下面想要获取键值内容怎么做,先用re正则获取大括号内容,再转换为json格式

4.想要爬取的页面数据很零散,建议使用css选择器,如下图,想要猫咪的年龄,品种,是否接种疫苗,是否支持视频看猫等信息

二、css解析步骤:

import parsel
html_data = requests.get(url,headers).text
selector = parsel.Selector(html_data)
content = selector.css('css格式')

实例化一个selector对象 

css格式总结:

.代表class  #代表id  ::text 表示输出文本(即尖括号里面的内容) nth-child(page)表示匹配第page项    

例子:

div 返回的是全部div标签

div.content 返回的是class = 'content'的整个div标签

div.content  #su 返回的是class = 'content'的整个div标签下id = 'su'的标签

div.content li 返回的是class = 'content'的整个div标签下的li标签

div.content li:nth-child(1)返回的是class = 'content'的整个div标签下的li标签中的第一个li标签

div.content li:nth-child(1)::text返回的是class = 'content'的整个div标签下的li标签中的第一个li标签中的文本数据

div.content li:nth-child(1)::attr(href)返回的是class = 'content'的整个div标签下的li标签中的第一个li标签,其中的href所对应的属性值

selector.css('css样式').get() 获得一个匹配的

selector.css('css样式').getall()获得多个匹配的

可以在开发者工具中尝试:

定位要爬取的数据,在elements中ctrl+f出现

如想爬取在售只数应该怎么写:

import parsel
import requests
url = 'http://maomijiaoyi.com/index.php?/chanpinxiangqing_1038711.html'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',}
response = requests.get(url=url,headers=headers)
response.encoding = response.apparent_encodingselector = parsel.Selector(response.text)
num = selector.css('.info2 div:nth-child(1) div.red::text').get()# 获取在售只数

获得下图src的属性值:

 

src = selector.css('div.button div.tel img::attr(src)').get()

 注意,编写css时,要像树一样,一层一层找,不能跳的太远,否则会出错

 三、在selenimu中用css选择器:代码展现

from selenium import webdriver
import parsel
import requests
path = 'chromedriver.exe'
broswer = webdriver.Chrome(path)url = 'http://maomijiaoyi.com/index.php?/chanpinliebiao_c_2.html'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',}
broswer.get(url)for page in range(1,25):selector = broswer.find_element_by_css_selector(f'#content > div.breeds_floor > div > div > a:nth-child({page}) > div.img > img')url = selector.get_attribute('src')print(url)'''
筛选标签,与css语法一致,不会可以复制,以selector方式复制。find_element_by_css_selector返回的是一个标签,find_elements_by_css_selector返回的是多个标签
获取标签的属性值用selector.get_attribute方法'''
lis = browser.find_elements_by_css_selector('.Content li')  # 获取class=Content的ul的下面所有的li标签
for li in lis:bs = li.find_elements_by_css_selector('b') # 在li标签中找b标签for b in bs:print(bs.text)# 获取b标签的文本值

http://www.yayakq.cn/news/613605/

相关文章:

  • 网站如何进行网络推广互联网推广的特点
  • 人才网站开发四川建设厅证件查询网站
  • 网站被百度收录吗辽宁定制网站建设推广
  • wordpress外贸建站教程上栗网站建设
  • 自适应网站开发seo线上编程课推荐哪一个
  • 网站策划案4500wordpress 调用导航栏
  • 肥西县重点建设局网站南沙建设网站
  • 网站建设的目的及意义网络推广方案的参考文献
  • 企业网站建设的背景和目的网站建设最安全的宽度
  • 万州做网站的公司wordpress 3.9中文版
  • 建设企业资质双网是哪两个网站网站建设时图片和文字
  • 如何在导航网站上做链接聊石家庄seo
  • 网站建设指导思想和目标网站与网页设计教程
  • 可信网站认证有必要吗各大网站搜索引擎入口
  • 怎么免费做网站推广广告平面设计培训班要学多久
  • 建设网站的视频关键词查询工具免费
  • 个人主题网站商品网站建设设计思路
  • 网站制作技巧017怎么做考试资料网站
  • 宁波住房城乡建设局网站手机端网站搭建
  • 如何运营网站申请小程序步骤
  • 免费行情软件网站直播做企业网站国内发展
  • php精品网站建设来宾网站制作公司
  • 人事怎么做招聘网站比对分析高性能网站建设进阶指南 pdf
  • 优狐网站建设中国建设银行手机银行app下载官网
  • 重庆网站建设夹夹虫公司.很好flask做的网站如何上传
  • 仿朋友圈网站建设推动高质量发展就是要
  • 网站建设毕业设计个人总结160mk2成色
  • 做推广可以在哪些网站发布软文滨州市建设局网站
  • 旅游酒店网站建设win8风格手机网站模板
  • 如何让网站上线企业备案网站内容