当前位置: 首页 > news >正文

海关做预归类的网站建设企业网站的需要多长时间

海关做预归类的网站,建设企业网站的需要多长时间,定陶网站建设,广州低成本网络营销关于整理日常练习的一些爬虫小练习,可用作学习使用。 爬取项目以学习为主,尽可能使用更多的模块进行练习,而不是最优解。 爬虫概要 示例python 库爬取模块request解析模块BeautifulSoup存储类型list(方便存入数据库&#xff09…

关于整理日常练习的一些爬虫小练习,可用作学习使用。

爬取项目以学习为主,尽可能使用更多的模块进行练习,而不是最优解。

爬虫概要

示例python 库
爬取模块request
解析模块BeautifulSoup
存储类型list(方便存入数据库)

解析

 

代码示例

# -*- coding: utf-8 -*-import requests
from requests.exceptions import ReadTimeout, ConnectionError, RequestException
from bs4 import BeautifulSoup# 爬虫主体
def get_page(url):headers = {'Connection': 'keep-alive','Cache-Control': 'max-age=0','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3','Referer': 'https://maoyan.com/board',}try:response = requests.get(url=url, headers=headers).textreturn responseexcept ReadTimeout:  # 访问超时的错误print('Timeout')except ConnectionError:  # 网络中断连接错误print('Connect error')except RequestException:  # 父类错误print('Error')# 解析网页
def parse_page(html):soup = BeautifulSoup(html, 'lxml')grid = soup.find(name="ol", attrs={"class": "grid_view"})movie_list = grid.find_all("li")for movie in movie_list:rank = movie.find(name="em").getText()name = movie.find(name="span", attrs={"class": "title"}).getText()rating_num = movie.find(name="span", attrs={"class": "rating_num"}).getText()# bd = movie.find(name="p").getText().strip().replace('   ', '\n').replace('...\n                            ', '...\n').replace(' / ', '\n').split('\n')  # 头皮发麻字符串分解系列,因为练习没用 re,果然原生字符串处理麻烦的一匹,strip去除空格,replace替换,旨在将不同信息分类存储到不同的参数,如导演、主演、上映时间、上映时间和电影类型bd = movie.find(name="p").getText().strip().replace('   ', '\n').replace('...\n                            ', '...\n').replace(' / ', '\n').split('\n')  # 头皮发麻字符串分解系列,因为练习没用 re,果然原生字符串处理麻烦的一匹,strip去除空格,replace替换,旨在将不同信息分类存储到不同的参数,如导演、主演、上映时间、上映时间和电影类型# 豆瓣有些主演没有。。。贼蛋疼,为了简便只能写个烂代码再增加一次了if len(bd) == 4:bd.insert(1, '没爬到')inq = movie.find(name="span", attrs={"class": "inq"})# 处理 inq 为空的情况if not inq:inq = "暂无"else:inq = inq.getText()# 这里直接存储到字典,方便存到数据库douBanDict['rank'] = rankdouBanDict['name'] = namedouBanDict['director'] = bd[0]douBanDict['actor'] = bd[1]douBanDict['release_time'] = bd[2].strip()  # 某些列表有空格,直接strip()去除空格douBanDict['country'] = bd[3]douBanDict['movie_types'] = bd[4]douBanDict['rating_num'] = rating_numdouBanDict['inq'] = inqdouBanList.append(str(douBanDict))  # 字典先转为字符串再累加到列表中,否则无法字典值会一直变return douBanListif __name__ == '__main__':douBanList = []douBanDict = {}for start in range(0, 250, 25):url = 'https://movie.douban.com/top250?start={}&filter='.format(start)html = get_page(url)douBanList = parse_page(html)print(douBanList)

数据存储

直接是列表格式,同时包含各个电影信息的字典。

 

http://www.yayakq.cn/news/19106/

相关文章:

  • 网站编程项目管理平台系统
  • 鲜花网站模板下载苏州手机网站建设
  • 网站换模板影响国外购物平台排行榜前十名
  • 做淘宝网站代理筛选选功能形网站建设
  • 学院网站群建设14亿人口新冠死多少
  • 厦门网站制作哪里好薇四川招标采购交易信息网
  • 桐城住房和城乡建设局网站西安大网站建设公司排名
  • 网站团购活动页面怎么做腾讯云网站制作教程
  • 无锡 做网站深圳保障性住房管理办法
  • 电商类网站咋做wordpress屏蔽右键
  • 什么网站可以做公共基础知识有做思维图的网站吗
  • 网站建设 方案 评价表项目之家app
  • 廊坊专门做网站郑州达云通网站建设公司怎么样
  • 惠州网站制作设计wordpress分页阅读
  • 旅游网站制作文献上海广告公司排名前十强
  • 明年做啥网站致富中小企业网站建设与推广分析
  • 外贸网站推广seo常德网站建设费用
  • 建网站 域名外贸社交网站排名
  • 自己做网站服务器的备案方法管理网站模板下载免费
  • 网站建设 浙icp 0578WordPress有哪些工具
  • 建设部官方网站有哪些如何保证网站安全
  • php官网网站建设外链发布平台有哪些
  • 浙江省交通建设工程监督管理局网站四川网站建设价格
  • 优质的成都网站建设推wordpress后台登录页面美化
  • 公家网站模板南京网站制作开发
  • 深圳集团网站开发网站开发公司建设部建筑招投标网站
  • 做网站前期费用建设分销网站
  • 做推广网站的去哪能买到有效资料济南网站建设山东聚搜网见效快
  • 网站开发手机充值接口制作ppt免费软件
  • 视频网站开发报告织梦系统做导航网站