当前位置: 首页 > news >正文

哪里有做推文的网站怎么建设网站模板上传

哪里有做推文的网站,怎么建设网站模板上传,网站的备案,程序员学历要求高吗(2024)豆瓣电影TOP250爬虫详细讲解和代码 爬虫目的 获取 https://movie.douban.com/top250 电影列表的所有电影的属性。并存储起来。说起来很简单就两步。 第一步爬取数据第二步存储 爬虫思路 总体流程图 由于是分页的,要先观察分页的规…

(2024)豆瓣电影TOP250爬虫详细讲解和代码

爬虫目的

获取 https://movie.douban.com/top250 电影列表的所有电影的属性。并存储起来。说起来很简单就两步。

  • 第一步爬取数据
  • 第二步存储

爬虫思路

总体流程图

由于是分页的,要先观察分页的规律,如下很容易知道每一页的规律。

  • 第一页:https://movie.douban.com/top250?start=0&filter=
  • 第二页:https://movie.douban.com/top250?start=25&filter=

代码思路

  • 函数 getAllPageUrl :生成分页链接列表
  • 函数 getMoiveListByUrl :根据某一页的分页链接,输出电影属性

函数:getAllPageUrl

def getAllPageUrl():"""通过观察规律,生成所有分页的链接list:return:"""list = []for i in range(10):url = f'https://movie.douban.com/top250?start={i*25}&filter='list.append(url)# print(url)return list

测试代码

if __name__ == "__main__":urlList = getAllPageUrl()pprint(len(urlList))pprint(urlList)

输出结果

可以一一校验链接是否有效,准确

image-20240620095315256

函数:getMoiveListByUrl

分析dom

image-20240620105142511

image-20240620105310568

//juery获取一部电影的dom
$("#content .grid_view .item")[0]

OK,经过分析,我们找到了,使用jquery 获取电影dom的方式,只需要经过两步就能拿到电影列表了。

  • 第一步:获取电影列表dom :$("#content .grid_view .item")
  • 第二步:处理单个电影dom,拿到信息。

代码

def getMoiveListByUrl(url):"""由一个分页链接开始,通dom节点的形式 + 数据处理(正则处理、字符处理、类型转换等), 获取电影信息:return: list: 包含每部电影详细信息的字典组成的列表。"""# 定义请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',# 其他需要的请求头...}movieList = []# 发送 GET 请求并获取响应内容response = requests.get(url, headers=headers)if response.status_code == 200:#todo pyquery 解析dom,经过循环,数据处理(正则处理、字符处理、类型转换等),得到正确的电影属性信息doc = pq(response.text)movie_list_doc = doc("#content .grid_view .item")for item in movie_list_doc.items():item_dict = {} #存储单个电影对象的字典cover = item('.pic img').attr('src')movie_url = item('.pic a').attr('href')title = item('.info .hd .title:first').text()review_count_text = item('.info .bd .star span:contains("人评价")').text()rating_num = item('.info .bd .star .rating_num').text()review_count = int(review_count_text.replace("人评价", ""))item_dict['title'] = titleitem_dict['cover'] = coveritem_dict['review_count'] = review_countitem_dict['rating_num'] = rating_numitem_dict['movie_url'] = movie_url# print(title)movieList.append(item_dict)return movieListelse :return movieList

测试代码

if __name__ == "__main__":pageUrl02 = 'https://movie.douban.com/top250?start=25&filter='movieList = getMoiveListByUrl(pageUrl02)pprint(movieList)

输出结果

可以一一校验链接是否有效,准确

image-20240620112728080

http://www.yayakq.cn/news/281954/

相关文章:

  • 个人网站可以做哪些主题wordpress如何分类栏
  • 敖汉旗网站建设在线网站源码提取
  • 做网站都需要服务器吗垂直网站建设步骤
  • 中山网站建设策划方案设计师常去的网站
  • 网站建设 有道翻译定制旅游哪个网站好用
  • 广东省建站公司vip影视网站如何做app
  • 浙江网站建设专家评价花瓣网是仿国外那个网站做的
  • 创新的手机网站建设大连网站制作代理价格
  • 做低首付的汽车网站有哪些鄂州建设网站
  • jsp网站开发过程外国英文设计网站
  • 祁东网站建设网站维护正常要多久
  • 购物网站开发需求分析网站建设开题报告论述
  • 网站开发美学 2.0360建设网站免费
  • 中国建设银行青岛分行网站制作流程图的网站
  • 竹子系统做的网站可以优化么wordpress主题改字体
  • 代理备案 网站 安全吗网站建设相关图片
  • 凡科网站后台在哪里.如何做响应式的网站
  • 做网站网站代理的犯法么创建网站成功案例
  • 做餐饮店铺哪个网站优化网站有哪些方法
  • 太原网站搜索优化怎样给自己的网站做优化
  • 网站正在建设中的英文江门专业网站制作公司
  • 正邦网站建设一个网站是怎么建立的
  • cms网站源码建筑工程网线接头规范
  • 苍南龙港做网站店铺合肥建网站要多少钱
  • 如何找网站推广河南建设信息港网站查询
  • 培训平台网站商务网站开发实训报告
  • 网站二维码弹窗千图网在线编辑
  • 广东省医院建设协会网站首页唐山微信小程序开发公司
  • 网站上传百度多久收录哪些免费的网站可以做企业宣传
  • 网站建设推广技术2003建立虚拟网站