当前位置: 首页 > news >正文

型云网站建设泰通建设集团网站

型云网站建设,泰通建设集团网站,权威网站,做门户网站用什么模板标题 1 统计要收集的关键词,制作一个文件夹2 爬取每一页的内容3 爬取标题和内容4 如果内容可以被查看,爬取评论内容5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容6 总结 1 统计要收集的关键词,制作一个文…

标题

  • 1 统计要收集的关键词,制作一个文件夹
  • 2 爬取每一页的内容
  • 3 爬取标题和内容
  • 4 如果内容可以被查看,爬取评论内容
  • 5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容
  • 6 总结

1 统计要收集的关键词,制作一个文件夹

例如,我要收集旅游相关的,就收集:
旅游、旅行、旅游攻略,这些词,做成一个txt文件。

用一个浏览器登录上小红书账号,然后记录写cookies,例如:
在这里插入图片描述

2 爬取每一页的内容

主要使用request,js模块,将爬取的内容保存为res,里面包含一页20条数据。

info = re.sub(r'"page":".*?"', f'"page":"{page}"', info)ret = js.call('get_xs', api, info, cookies["a1"])headers['x-s'], headers['x-t'] = ret['X-s'], str(ret['X-t'])response = requests.post(search_url, headers=headers, cookies=cookies, data=info.encode('utf-8'))res = response.json()

3 爬取标题和内容

从每一个note里面解析出标题,内容等信息。

result = {}result["title"] = data['note_card']['title']result["desc"] = data['note_card']['desc'].replace("\n", "").replace("\t", "")tags_temp = data['note_card']['tag_list']tags = []for tag in tags_temp:try:tags.append(tag['name'])except:passresult["tags"] = tagsresult["time"] = timestamp_to_str(data['note_card']['time'])

4 如果内容可以被查看,爬取评论内容

每个帖子里面的评论的单独的url,需要根据id号进行拼接,所以根据第3节获取的user-id,进行拼接,然后再用get进行访问,最后获得每条评论,注意有些帖子是不能被查看的,所以需要进行判断。

note_id = url.split('/')[-1]comments_url = "https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id={}&image_scenes=FD_WM_WEBP,CRD_WM_WEBP".format(note_id)response = requests.get(comments_url, headers=headers, cookies=cookies)res = response.json()comments = []for line in res["data"]["comments"]:comment_str = line["content"]comments.append(comment_str)

5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容

包含:标题,具体内容,标题,创建时间,评论内容。每个关键词一个文件夹。
在这里插入图片描述

6 总结

详细代码私聊,注意本内容没有爬取图片,如果需要可以添加。

http://www.yayakq.cn/news/191958/

相关文章:

  • 增城专业建站公司网站建设 生产
  • 网站建设实训建议企业信息公示系统全国官网
  • 网站添加留言板功能电脑系统做的好的网站
  • 西湖网站建设湖南省住房和城乡建设厅门户网站
  • 前端做网站难吗最近楼市行情走势
  • 界面网站建设能够免费换友链的平台
  • 怎么样做网站优化安徽省建设干校学校网站
  • 网站规划与设计范文wordpress网站提速
  • 毕业设计做网站怎么做南通网站设计
  • 企业网站seo运营企业oa系统免费
  • 网络招商平台网站怎么做网络服务提供者有哪些
  • 哈尔滨网站建设 熊掌号新乡网站建设哪家好
  • 网站做淘宝联盟网站建设 软件开发
  • 网站建设国内排行小清新网站设计
  • 山西建设银行官方网站医院构建网络平台你怎么准备
  • 自己搭建服务器网站开发软件珠海市企业网站制作品牌
  • png图片可以做网站图标吗dede网站模板怎么改
  • 淘宝客 wordpress网站中国建筑集团有限公司是央企还是国企
  • 网站的维护与更新模块网站和定制网站区别
  • 长春品牌网站建设公司介绍网站建设规划书结构
  • 猪八戒网网站开发需求有网站公司源码可以重建网站吗
  • 网站加ico图标WordPress文字水印
  • 旅游景区网站建设的必要性建筑工程网格化管理实施方案
  • 老山做网站的公司苏州商城网站建设
  • php商城网站开发福建金融公司网站建设
  • 杭州网站推广大全网站建设与维护一样吗
  • 怎样做内网网站企业门户网站方案
  • 郑州网站建设市场爱牛网络
  • 南通网站建设空间杭州平面设计
  • 通信工程毕设可以做网站吗网络营销的特点举例说明