当前位置: 首页 > news >正文

海纳企业网站管理系统数据分析培训机构哪家好

海纳企业网站管理系统,数据分析培训机构哪家好,seo优化分析,电商 做图 网站一、定义函数获取列表页的内容页地址 get_movie_links() 1、定义列表的地址 2、打开url地址,获取数据 3、解码获取到的数据 4、使用正则得到所有的影片内容也地址 4.1 遍历,取出内容页地址 4.2 拼接内容页地址 4.3 打开内容页地址 4.4 获…

一、定义函数获取列表页的内容页地址 get_movie_links()

1、定义列表的地址

2、打开url地址,获取数据

3、解码获取到的数据

4、使用正则得到所有的影片内容也地址
    4.1 遍历,取出内容页地址
    4.2 拼接内容页地址
    4.3 打开内容页地址
    4.4 获取数据,并读取
    4.5 解码内容页数据,得到html内容页文本
    4.6 使用正则,获取下载地址的连接
    4.7 把影片信息和下载链接,保存到字典中
    4.8 返回字典
二、主函数 main
1、调用 get_movie_list() ,得到字典
2、遍历字典,将内容保存到本地CSV文件中

"""
一、定义函数获取列表页的内容页的地址get_movie_links()
1、定义列表地址https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
2、打开url1地址,获取数据
3、解码获取到的数据
4、使用正则得到所有影片内容页的地址二、主函数
"""
import urllib.request
import re
import csvdef get_movie_links():# 1、定义列表地址https: // www.ygdy8.net / html / gndy / dyzz / list_23_1.htmlfilm_list_url = "https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html"# 2、打开url1地址,获取数据response_list = urllib.request.urlopen(film_list_url)# 通过read()读取网络资源数据response_list_data = response_list.read()# 3、解码获取到的数据response_list_text = response_list_data.decode("gbk")# 4、使用正则得到所有影片内容页的地址# 使用findall()查找影片内容对应地址url_list = re.findall(r"<a href=\"(.*)\" class=\"ulink\">(.*)</a>", response_list_text)# 定义字典保存电影信息films_dict = {}# 保存地址[('/html/gndy/dyzz/20240514/64980.html', '2024年科幻动作《哥斯拉大战金刚2:帝国崛起》BD中英双字'),……]# 定义变量记录电影条数i = 1# 循环遍历列表得到每个电影的地址for content_url, film_name in url_list:# 拼接目标电影地址content_url = "https://www.ygdy8.net/" + content_url# 打开每一部电影的内容页地址response_content = urllib.request.urlopen(content_url)# 接收内容页的html二进制信息response_content_data = response_content.read()# 解码得到内容页的文本内容response_content_text = response_content_data.decode("gbk")# 取出下载内容页地址# print(response_content_text)result = re.search(r"href=\"(.*?)\"><strong><font style=\"BACKGROUND-COLOR: #ff9966\"><font color=\"#0000ff\">[<font size=\"4\">]*(.*?)</font>",response_content_text)# 将信息保存到字典中films_dict[film_name] = result.group(1)print(f"已经获取{i}条信息")i += 1return films_dictdef main():films_dict = get_movie_links()# 定义CSV文件名csv_file_name = "films.csv"# 打开文件进行写入with open(csv_file_name, 'w', newline='', encoding='utf-8') as csvfile:# 定义CSV文件的列名fieldnames = ['film_name', 'film_link']# 创建csv writer对象writer = csv.DictWriter(csvfile, fieldnames=fieldnames)# 写入列名行writer.writeheader()# 遍历字典并写入数据行for film_name, film_link in films_dict.items():writer.writerow({'film_name': film_name, 'film_link': film_link})print(f"数据已成功保存到当前目录下的{csv_file_name}")if __name__ == '__main__':main()

注意没有涉及代理,只是对正则表达式的练习应用,可能在爬取过程中被封禁ip,建议设置延时缓慢爬取或自己开启代理 ,否则慎用……

http://www.yayakq.cn/news/25072/

相关文章:

  • 网站域名 被别人备案北京新闻最新消息报道
  • 网站开发与部署网络推广培训网
  • 网站制作带模板破解版做装饰公司网站6
  • 平台网站建设设计网页开发工具所见即所得
  • 哪里有网站制作技术wordpress图片排列显示
  • wordpress 资源站主题亚马逊网官网首页
  • 东明网站制作专业建站
  • 网站开发网上接单wordpress 极简 主题
  • 从化市营销型网站建设wordpress 如何结合vue
  • 网站 全屏幻灯片高端网站建设口碑
  • 全国最大型网站建设网站运营与建设作业
  • 电商行业网站建设及维护网页制作的开发平台
  • 卦神岭做网站willfast优化工具下载
  • 个人响应式网站重庆企业年报网上申报入口
  • 如何快速提高网站关键词排名世界500强企业关于优秀员工的12条核心标准
  • 很有设计感的企业网站中国纪检监察报简介
  • 备份整个网站做一个新公司网站要多少钱
  • 无锡网站建设哪家公司好宣传册设计公司
  • 免费网站建设步骤淄博网站
  • 怎么做自己的网站主页劳务派遣做网站有必要吗
  • 做网站毕业答辩会问什么反邪手机网站建设方案
  • 做网店有哪些拿货网站优秀交互设计网站
  • 个人做网站用哪个主机好建设银行手机银行网站用户名
  • com网站域名可以是汉字吗足球比赛直播2021欧冠决赛
  • 免费自己制作网站方法游戏怎么开科技
  • 建设网站怎么收费wordpress 无法在线升级
  • 有关做有机肥的企业网站做数码后期上数码网站
  • 网站素材大全北京装修公司口碑最好的是哪家
  • 网站模板 黑白小程序制作实惠首选华网天下
  • 城阳做网站找哪家好网站的风格设计