当前位置: 首页 > news >正文

asp.net做登录网站资源企业网盘解决方案

asp.net做登录网站资源,企业网盘解决方案,做外贸的社交网站,珠海网站开发哪家好爬虫有几部分功能??? 1.发请求,获得网页源码 #1.和2是在一步的 发请求成功了之后就能直接获得网页源码 2.解析我们想要的数据 3.按照需求保存 注意:开始爬虫前,需要给其封装 headers {User-…

爬虫有几部分功能???
    1.发请求,获得网页源码 #1.和2是在一步的 发请求成功了之后就能直接获得网页源码
    2.解析我们想要的数据
    3.按照需求保存 

注意:开始爬虫前,需要给其封装

c345ba9c6b774d94b1eae4a97558814a.png

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'
}

爬虫分析:

第一步:从列表页抓取详情页面的链接

67a22993e4b548dab264c312cc472003.png

正则表达式:

<li\sclass="media\sthread\stap\s\s".*?>.*?<div\sclass="subject\sbreak-all">.*?<a\shref="(.*?)">(.*?)</a>

得到如下结果

3cf2dab9b1104a35932bc4ce910ba80c.png

从以上结果可以看出,此链接不可直接点击,缺少https://www.hifini.com/这一部分

https://www.hifini.com/thread-20945.htm

因此如下处理

   for i in result:
        # print(i)#元祖下标取值
        href = "https://www.hifini.com/"+i[0]
        name = i[1]
        print(href)
        print(name)
        print('======================')

c25d12de58394e50a8ae10c476cad5a4.png

第二步:获取歌曲播放资源

找到歌曲url的xpath:

music:\s\[.*?title:\s'(.*?)',.*?url:\s'(.*?)'

代码:

#解析歌曲的播放组员
song_re = "music:\s\[.*?title:\s'(.*?)',.*?url:\s'(.*?)'"
r = re.findall(song_re,song_html_data,re.S)
# print('歌曲信息',r)
for i in r:song_name = i[0]song_link = "https://www.hifini.com/"+i[1]print('歌名:',song_name)print("歌曲播放资源链接",song_link)print('++++++++++++++++')

9ef65f579d2d405daf4d544469d24d13.png

第三步:再次像歌曲播放资源链接发请求 获得二进制数据,进行保存

1.创建文件夹

#保存歌曲 先创建一个文件夹 导入os模块
#判断文件是否存在
if not os.path.exists('歌曲'):os.makedirs("歌曲")

2.创建文件流,将歌曲保存在文件夹中

with open('歌曲\{}.m4a'.format(song_name),'wb')as f:f.write(data_bytes)

代码:

import requests
import re
import osshouye_url = 'https://www.hifini.com/'
# 1.起始目标
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'
}
response = requests.get(shouye_url, headers=headers)
#1.发请求,获得网页源码
def get_data(url):response = requests.get(url,headers=headers)# print(response.status_code)# print(response.text)if response.status_code == 200:return response.text
#2.解析我们想要的数据
def parse_data(data):#形参站位 模拟的就是爬虫爬取下来的源码z ='<li\sclass="media\sthread\stap\s\s".*?>.*?<div\sclass="subject\sbreak-all">.*?<a\shref="(.*?)">(.*?)</a>'result = re.findall(z,data,re.S)# print(result)# https://www.hifini.com/thread-20945.htmfor i in result:# print(i)#元祖下标取值href = "https://www.hifini.com/"+i[0]name = i[1]print(href)print(name)print('======================')get_song_link(href)#https://www.hifini.com/get_music.php?key=2Ydoqazb8E6jj+Nvl6rZLnuh3Fu1MRARle/srx5zQfZVMkPqsGrSzFHehon89oIENCUU19ru3GEJax60Ew
# 像详情页发请求 获得网页源码
def get_song_link(link):#link模拟的是详情页的urlsong_html_data = get_data(link)# print("详情页的网页源码",song_html_data)#解析歌曲的播放组员song_re = "music:\s\[.*?title:\s'(.*?)',.*?url:\s'(.*?)'"r = re.findall(song_re,song_html_data,re.S)# print('歌曲信息',r)for i in r:song_name = i[0]song_link = "https://www.hifini.com/"+i[1]print('歌名:',song_name)print("歌曲播放资源链接",song_link)print('++++++++++++++++')#再次像歌曲播放资源链接发请求 获得二进制数据data_bytes = requests.get(song_link,headers=headers).content# print(data_bytes)#保存歌曲 先创建一个文件夹 导入os模块#判断文件是否存在if not os.path.exists('歌曲'):os.makedirs("歌曲")with open('歌曲\{}.m4a'.format(song_name),'wb')as f:f.write(data_bytes)
#对应的功能写在不同的函数里面 如果需要互用功能 互相调用即可
if __name__ == '__main__':h = get_data(shouye_url)parse_data(h)

结果:

5848239ec78742f48e0a71d1b0b5d214.png

8bb2da505c6247f4b647d0ba40b35165.png

 

http://www.yayakq.cn/news/978765/

相关文章:

  • 缙云建设局网站导视设计提案
  • 织梦网站底部黑链京东物流网站建设特点
  • 免费开源网站系统wd ex4 安装wordpress
  • 网站建设的步骤图片过程顺德网络科技有限公司
  • 洛阳直播网站建设雄安优秀网站建设电话
  • 怎么直接用代码做网站网站城市分站织梦系统
  • 搬家网站怎么做网站上的用户注册怎么做的
  • 网站后台显示不了网站怎样才能被百度收录
  • 做网站怎么买服务器小红书推广方式如何引流
  • 宁波市镇海建设交通局网站什么公司可以做网站
  • 淘宝购物返利网站开发牧星网站建立
  • 网站开发月薪多少钱我做外贸要开国际网站吗
  • 浦东区网站建设建设银行的官方网站高铁纪念币
  • 套模板的网站做图去哪个网站找素材
  • 一般做网站要什么编程国外网站服务器建设
  • 做网站ie10缓存wordpress设置付费阅读
  • 沈阳高端网站建设网络维护工资多少一个月
  • 杭州模板网站制作方案旅游宣传推广方案
  • 郑州平台网站建设企业官网响应式网站
  • 上海网站建设 劲晟wordpress怎样开发支付宝
  • 网站开发用什么技术做好那个网站做h5好
  • 找网页模板的网站好领动建站
  • 做免费采集电影网站犯法吗深圳官方网站设计
  • 禅城网站建设哪家好推荐中山精品网站建设
  • 门户网站类型有哪些爱牛网络
  • 网站建设教程app中国建设银行网站色彩
  • 长安网站优化广西做网站
  • wordpress站点地图无法读取网站建设分金手指专业二九
  • 建设银行网站图片大全电子商务网站建设第一章课后
  • 怎么用自己的网站做网页网站的建设模式是指什么时候开始