当前位置: 首页 > news >正文

专业家电维修网站建设建网站需求

专业家电维修网站建设,建网站需求,湛江市出行防疫政策,怎么样让客户做网站和小程序Python爬虫学习(三) 使用BeautifulSoup解析网页并下载图片模拟用户登录处理使用代理视频下载,防盗链的处理多线程与多进程 使用BeautifulSoup解析网页并下载图片 目的:对某网站的某个专栏页面的图片进行下载得到高清图。 思路&am…

Python爬虫学习(三)

  • 使用BeautifulSoup解析网页并下载图片
  • 模拟用户登录处理
  • 使用代理
  • 视频下载,防盗链的处理
  • 多线程与多进程

使用BeautifulSoup解析网页并下载图片

目的:对某网站的某个专栏页面的图片进行下载得到高清图。
思路:从主页获取每张图片对应的子页面的链接地址,在子页面找到对应的高清图片下载地址然后下载。查找使用BeautifulSoup,直接从主页拿到的图片下载链接为缩略图,这里想要下载的是高清的图片。

import time
import requests
from bs4 import BeautifulSoupdomain = "https://www.umei.cc/"
# url = "https://www.umei.cc/bizhitupian/weimeibizhi/"  # 唯美壁纸专栏
url = "https://www.umei.cc/bizhitupian/fengjingbizhi/"  # 风景壁纸专栏
# 浏览器的标头身份标识信息
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0"
}resp = requests.get(url, headers=headers)
print("服务器响应状态码:", resp.status_code)
resp.encoding = 'utf-8'  # 处理乱码# 把主页源代码交给BeautifulSoup
main_page = BeautifulSoup(resp.text, "html.parser")
# 获取图片子页源码链接
alist = (main_page.find("div", class_="item_list infinite_scroll").find_all("a", class_="img_album_btn"))# print(alist)
img_num = 0
for a in alist:href = a.get('href')  # 直接通过get就可以拿到属性的值child_url = domain + href.strip('/')# print(child_url)  # 子页面网址# 拿到子页面的源代码child_page_resp = requests.get(child_url, headers=headers)child_page_resp.encoding = 'utf-8'# 从子页面中获取图片的下载路径child_page = BeautifulSoup(child_page_resp.text, "html.parser")div_list = child_page.find('div', class_='big-pic')image_src = div_list.find('img').get('src')  # 用get拿到标签的对应属性image_name_src = div_list.find('img').get('alt')[:-1] + '.jpg'# print(image_src)  # 打印图片下载地址,http://kr.shanghai-jiuxin.com/file/bizhi/20220927/5wn4old1jef.jpg# print(image_name_src)  # 红色,爱心,心,玫瑰,叉子,刀.jpg# 下载图片img_resp = requests.get(image_src)# 获取url中最后一个/以后的内容作为图片名称# img_name_url = image_src.split('/')[-1] #5wn4old1jef.jpgwith open("data_file/img/" + image_name_src, mode='wb') as f:f.write(img_resp.content)  # img_resp.content #这里得到的是字节数据img_num = img_num + 1print(f"Download successfully!\t{img_num}:'{image_name_src}'")# 只下载前6景图片if img_num == 6:img_resp.close()child_page_resp.close()breaktime.sleep(3)  # 每下载一张图片休息3s
print("Over!!!")
resp.close()

模拟用户登录处理

  • 方法1:使用会话session对象,使用session.get()、session.post()进行请求
session = requests.session()
resp = session.post()
# resp = session.get()
  • 方法2:使用requests.get(),在headers中设置参数,直接从浏览器中复制对应的Cookie
resp = requests.get(url=url, headers={"Cookie": "一长串内容"})
# !!!注:代码不能正常运行,仅做示例!!!
# 登录->得到cookie,带着cookie 去请求服务器
# 使用session进行请求->session你可以认为是一连串的请求。在这个过程中的cookie不会丢失
import requests# 登录账户与密码信息(仅做示例)
data = {"loginName": "15100001234","password": "1234abcd"
}# 会话
session = requests.session()# 1.登录
url = "https://passport.17k.com/ck/user/login"
resp = session.post(url, data=data)
# print(resp.json())
print(resp.cookies)# 2.拿书架上的数据
# 刚才的那个session中是有cookie的
url2 = 'https://user.17k.com/ck/author/shelf?page=1&appkey=2406394919'
resp1 = session.get(url=url2)  # 第一种方法
print(resp1.json())resp2 = requests.get(url=url2, headers={# 第二种方法,使用requests.get(),在headers中设置参数,直接从浏览器中复制对应的Cookie"Cookie": "GUID=abcdfa-adg-ag;c_channel=0;c_csc=web;UM_distinctid=177=1614336271"# 实际的Cookie很长一串,这里仅做示范瞎写的
})
print(resp2.text)

使用代理

请求时传入一个proxies参数

resp = requests.get(url, proxies=proxies)
# 代码不能正常运行,仅做示例,想要正常运行需要寻找可用的代理IP节点
import requests# 218.60.8.83:3129 找一个可用的代理IP
proxies = {"https": "https://218.60.8.83:3129"# "http": ""#具体使用哪种看具体的网站
}url = "https://www.baidu.com"resp = requests.get(url, proxies=proxies)
print("服务器响应状态码:", resp.status_code)
resp.encoding = 'utf-8'  # 处理乱码
print(resp.text)

视频下载,防盗链的处理

根据某视频文章页面的网页链接下载文章对应的视频
思路:

  1. 拿到contId
  2. 拿到videoStatus返回的json.-> srcURL
  3. 对srcURL内容进行修正
  4. 下载视频

防盗链,添加一个参数

"referer": url
import requestsurl = "https://www.pearvideo.com/video_1795368"
# url = "https://www.pearvideo.com/video_1689388"contId = url.split("_")[1]  # 1795368
# print(contId)videoStatusUrl = f"https://www.pearvideo.com/videoStatus.jsp?contId={contId}&mrd=0.7991879511806432"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0",# 防盗链,溯源,当前本次请求的上一级是谁"referer": url
}resp = requests.get(videoStatusUrl, headers=headers)
# print(resp.text)dict = resp.json()
srcUrl = dict['videoInfo']['videos']['srcUrl']  # 返回的虚假的地址
# print(srcUrl)
systemTime = dict['systemTime']relSrcUrl = srcUrl.replace(systemTime, f"cont-{contId}")  # 寻找规律进行替换得到的真实的地址
print(relSrcUrl)# srcUrl: "https://video.pearvideo.com/mp4/short/20240802/1723116619381-16034050-hd.mp4" 返回的虚假的地址
# relUrl: "https://video.pearvideo.com/mp4/short/20240802/cont-1795368-16034050-hd.mp4"  实际真实的地址
#          https://video.pearvideo.com/mp4/short/20240802/cont-1795368-16034050-hd.mp4# 根据真实下载地址下载视频
with open(f"{contId}.mp4", mode='wb') as f:f.write(requests.get(relSrcUrl).content)print("Over!!!")
resp.close()

多线程与多进程

# 线程,进程
# 进程是资源单位,每一个进程至少要有一个线程
# 线程是执行单位# 启动每一个程序默认都会有一个主线程
def func():for i in range(100):print("func", i)if __name__ == '__main__':# print("hello wolrd")func()for i in range(100):print("main", i)

多线程的第一种写法

# 多线程
from threading import Thread  # 线程类# 多线程的第一种写法
def func():for i in range(100):print("func", i)if __name__ == '__main__':t = Thread(target=func)  # 创建线程并给线程安排任务t.start()  # 多线程状态为可以开始工作状态,具体的执行时间由CPU决定for i in range(100):print("main", i)

多线程的第二种写法

# 多线程
from threading import Thread  # 线程类# 多线程的第二种写法
class MyThread(Thread):def run(self):for i in range(100):  # 固定的 -->当线程被执行的时候,被执行的就是run()print("子线程", i)if __name__ == '__main__':t = MyThread()  # 创建线程并给线程安排任务# t.run()  # 注意,这种写法会被当成方法的调用.-->成为单线程t.start()  # 开启线程for i in range(100):print("主线程", i)

多线程的传参

from threading import Thread  # 线程类# 多线程的传参
def func(name):for i in range(100):print(name, i)if __name__ == '__main__':      # 传递参数必须是元组,逗号不能省,不能写成args=("周杰伦")t1 = Thread(target=func, args=("周杰伦",))t1.start()t2 = Thread(target=func, args=("王力宏",))t2.start()

多进程

from multiprocessing import Process # 进程类def funcc():for i in range(100):print("子进程", i)if __name__ == '__main__':p = Process(target=funcc)p.start()for i in range(100):print("主进程", i)
http://www.yayakq.cn/news/930997/

相关文章:

  • asp钓鱼网站开发百度公司官网
  • 网站小功能成都网站工作室
  • ppt怎么做网站浏览器代理怎么弄
  • 国外的网站模板企微scrm收费
  • 网站弄论坛形式怎么做网站建设公司一月赚多少
  • 外贸开发网站建设企业宣传网站案例
  • 凡客网站规划与建设ppt手机多少钱
  • 网站开发有哪些软件有哪些阳西网站seo
  • wordpress制作首页模板下载大连唐朝网站优化公司
  • 网站app开发公司专业网站建设咨询
  • 郑州做网站msgg做高级电工题的网站
  • 深圳招聘网站有哪些有没有专门做衣服搭配的网站
  • 个人网站对方把我的网站他网站内页友情链接 站长工具检测到是无反链
  • 网站的网站制作公司如何看免费的片
  • 中国建设工程协会网站秦皇岛在哪里属于哪个省
  • 网站做好了 怎么做解析centos 6.5 搭建wordpress
  • 广东网站开发项目wordpress无法选择数据库
  • 微信网站建设哪家好公司网站seo公司
  • 网站建设免费空间哪里有用服务器做网站需要购买域名吗
  • 山东青岛网站设计公司wordpress免签约
  • 安装网站模板网站制作厂家有哪些
  • 网站备案成功怎么查备案号刷抖音一天赚四五百块
  • 共享ip服务器做网站厦门门户网站制作服务商
  • 手机网站建设解决方案郑州公司网页
  • 周口航迪科技网站建设公司怎么样婚庆网站建设方案
  • 好看的企业网站模板卡盟在线自助下单
  • 福州制作公司网站cms建设网站
  • 妇幼医院网站建设方案wordpress上传文件插件
  • 怎么优化网站公益永久免费主机
  • 如何做网页游戏网站关键词的优化和推广