当前位置: 首页 > news >正文

网站建设张家港网页设计制作报价表

网站建设张家港,网页设计制作报价表,网站开发一般用什么数据库,wordpress调用96编辑器文章目录 CSDN质量分查询selenium爬取博客地址单篇测试批量查询分析 CSDN质量分查询 CSDN对博客有一套分数评价标准,其查询入口在这里:质量分查询,效果大致如下 如果质量分太低,就会在博文的标题下面出现黄底黄字: 这…

文章目录

    • CSDN质量分查询
    • selenium
    • 爬取博客地址
    • 单篇测试
    • 批量查询
    • 分析

CSDN质量分查询

CSDN对博客有一套分数评价标准,其查询入口在这里:质量分查询,效果大致如下

在这里插入图片描述
如果质量分太低,就会在博文的标题下面出现黄底黄字:在这里插入图片描述
这个提示其实已经很客气了,我记得去年刚上线的时候写的是低质量博客,总之很有攻击性。

但是,这个评分标准毕竟不是一早就有的,所以早些年间写的博客不可能完全符合现在的CSDN的要求,为了找到需要改进质量的博客,可以通过爬虫的方式,逐一对博客质量进行检测。

selenium

考虑到查询需要有一个交互过程,所以这里采用selenium作为爬虫工具。如果没装的话,需要安装一下

pip install selenium

然后需要下载webdriver,各浏览器下载地址如下

EdgeChromeFirefoxIEx
WebdrivergeckodriverchromedriverIEDriverServer

下载之后解压,并将解压地址添加到环境变量,就可以顺利调用了。

爬取博客地址

首先第一步是获取所有需要查询的博客的地址,这一步并不需要用到selenium,urllib可以轻松搞定,这一步如果有疑问可以参考这篇:用Python标准库统计CSDN阅读量

import urllib.request as ur
import re
article = r'details/[0-9]*'
blogId = []
for i in range(1, 25):print(i)url = f'https://tinycool.blog.csdn.net/article/list/{i}'res = ur.urlopen(url)text = res.read().decode('utf-8')details = re.findall(article, text)blogId += [int(d.split('/')[-1]) for d in details]if len(details)==61:breakblogId = list(set(blogId))

网址https://tinycool.blog.csdn.net/article/list/是个人主页,好处是可以指定页码。但网页中除了博客栏之外,其他地方也会出现博客地址,从而导致最终得到的网址会重复,故而最后通过set去重。

单篇测试

在批量查询之前,先来测试一下单篇博客查询是否可行

from selenium import webdriver
from selenium.webdriver.common.by import Byinput_xpath = '/html/body/div[2]/div/div/div/div/div/div/div[1]/div/div/div[2]/div[1]/div[1]/input'
btn_xpath = '/html/body/div[2]/div/div/div/div/div/div/div[1]/div/div/div[2]/div[2]'
code_xpath = '/html/body/div[2]/div/div/div/div/div/div/div[1]/div/div[2]/p[1]'url = 'https://tinycool.blog.csdn.net/article/details/111595416'driver = webdriver.Edge()
driver.get("https://www.csdn.net/qc?utm_source=1966961068")
driver.find_element(By.XPATH, input_xpath).send_keys(url)
driver.find_element(By.XPATH, btn_xpath).click()
code = driver.find_element(By.XPATH, code_xpath).text
# 得到code=99

批量查询

单篇博客查询没问题,那么批量无非是外面套一个循环而已

import time
blogCode = []
def getOneCode(path):driver.find_element(By.XPATH, input_xpath).clear()driver.find_element(By.XPATH, input_xpath).send_keys(path)driver.find_element(By.XPATH, btn_xpath).click()time.sleep(0.5)		# 给一个延时,否则点击未必会响应code = driver.find_element(By.XPATH, code_xpath).textreturn int(code)for id in blogId:path = f"https://tinycool.blog.csdn.net/article/details/{id}"try:blogCode.append([id, getOneCode(path)])except:blogCode.append([id, -1])    print(blogCode[-1])

效果如下

在这里插入图片描述

分析

没统计之前其实没意识到,统计之后发现一共有14篇博客得到了99分,超过60分的博客数目分别如下

在这里插入图片描述

c99 = [bc for bc in blogCode if bc[1] == 99]
print(len(c99))
# 14
from pprint import pprint
## 下面是99分的博客id
[[103475445, 99],[103465319, 99],[100534775, 99],[103439486, 99],[103398694, 99],[103769447, 99],[103519671, 99],[103669180, 99],[103568966, 99],[103964310, 99],[100175523, 99],[97750903, 99],[111595416, 99],[103847843, 99]]
  • Julia数值微积分
  • Julia实现数值代数中的经典算法
  • F#语言快速教程
  • C语言实现八种排序算法
  • Julia实现经典的插值算法
  • C++面向对象入门这一篇就够了
  • C语言实现链表、堆栈和队列
  • C语言实现高级数据结构之B树
  • 确定不收藏一下吗?你想要的语言环境这里都有
  • Clojure极简教程
  • python实现光线追迹(中):空间关系
  • 用C语言写一个计算器
  • go语言实现图的广度优先与深度优先搜索
http://www.yayakq.cn/news/810052/

相关文章:

  • php网站开发模式有哪些wordpress路径增加discuz
  • 如何建设好一个网站网站颜色编号
  • 安溪县住房和城乡规划建设网站项目开发的五个阶段
  • wap网站开发用什么语言中国食品网
  • 网站空间费用一年多少游戏网站免费入口
  • 足彩推荐网站开发html下载安装
  • 网站商场系统软件公司企业邮箱优势
  • 沧州高端网站建设深圳房产 网站建设
  • 淄博网站建设兼职平罗县住房和城乡建设局网站
  • 樟木头仿做网站简单的手机网站模板下载
  • 深圳网站设计公司 学校城乡住房建设厅网站首页
  • 怎么劝客户做网站青少年活动中心网站建设依据
  • 新安网站建设收录优美的图片app
  • html做网站需要服务器吗宁波百度seo代理
  • 山东省建设厅招标网站首页wordpress怎么给别人建站
  • 建工作室网站全国大学生网页设计大赛
  • 建网站自学一呼百应推广平台
  • 优惠券网站开发哪家好网站上传视频怎么做
  • 网站上全景云台怎么做的jquery网站模板下载
  • 怎么制作页面边框如何优化网站打开速度
  • 做网站时如何建立栅格网站数据怎么备份
  • 网站开发中怎么样对接接口如何制作一个购物平台
  • 医疗类网站还有做seo怎样销售网站
  • 在线推广企业网站的方法成全视频免费观看在线看古装电视剧
  • 网站系统正在升级维护p2p网站开发的流程
  • 油漆工找活做的网站设计一份企业网络的组网方案
  • 公共体育课程网站建设苏州网站设计制作
  • 电子商务网站订单功能wordpress 搜索字数
  • 周村有做网站广告的吗贵阳网站建设设计公司哪家好
  • 易班网站建设广东住房和城乡建设厅官方网站