当前位置: 首页 > news >正文

wordpress仿站插件企业做推广有用吗

wordpress仿站插件,企业做推广有用吗,长春网络哪家好,视频网站开发报告导语 Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚…

247047476.jpg

导语

Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。

概述

数据抓取是指从网页中提取所需的数据,如标题、正文、图片、链接等。数据聚合是指将多个来源的数据整合在一起,形成一个统一的视图或报告。数据抓取和聚合是爬虫技术的常见应用场景,它可以帮助我们获取最新的信息,分析舆情,发现趋势等。
使用Puppeteer进行数据抓取和聚合的基本步骤如下:

  1. 安装Puppeteer库和相关依赖
  2. 创建一个Puppeteer实例,并启动一个浏览器
  3. 打开一个新的页面,并设置代理IP和请求头
  4. 访问目标网站,并等待页面加载完成
  5. 使用选择器或XPath定位元素,并获取元素的属性或文本
  6. 将获取的数据存储到本地文件或数据库中
  7. 关闭页面和浏览器

正文

安装Puppeteer库和相关依赖

要使用Puppeteer,我们首先需要安装Node.js环境,以及Puppeteer库和相关依赖。我们可以使用npm命令来安装,如下所示:

// 在命令行中执行以下命令,安装Puppeteer库
npm install puppeteer// 安装http-proxy-agent模块,用于设置代理IP
npm install http-proxy-agent// 安装cheerio模块,用于解析HTML文档
npm install cheerio

创建一个Puppeteer实例,并启动一个浏览器

接下来,我们需要创建一个Puppeteer实例,并启动一个浏览器。我们可以使用puppeteer.launch方法来实现,该方法接受一个可选的配置对象作为参数,其中可以设置浏览器的各种选项,如是否显示界面、是否启用沙盒模式、是否忽略HTTPS错误等。例如:

// 引入puppeteer模块
const puppeteer = require('puppeteer');// 创建一个异步函数,用于执行爬虫任务
(async () => {// 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面const browser = await puppeteer.launch({ headless: false });
})();

打开一个新的页面,并设置代理IP和请求头

然后,我们需要打开一个新的页面,并设置代理IP和请求头。我们可以使用browser.newPage方法来创建一个新的页面对象,该对象提供了与页面交互的各种方法和事件。我们可以使用page.setExtraHTTPHeaders方法来设置请求头,以模拟正常的浏览器行为。我们还可以使用page.authenticate方法来设置代理IP,以避免被目标网站屏蔽或限制。例如:

// 引入http-proxy-agent模块,用于创建代理对象
const HttpProxyAgent = require('http-proxy-agent');// 创建一个异步函数,用于执行爬虫任务
(async () => {// 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面const browser = await puppeteer.launch({ headless: false });// 打开一个新的页面const page = await browser.newPage();// 设置请求头,模拟正常的浏览器行为await page.setExtraHTTPHeaders({'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',});// 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码await page.authenticate({username: '16YUN',password: '16IP',agent: new HttpProxyAgent('http://www.16yun.cn:9020'),});
})();

访问目标网站,并等待页面加载完成

接下来,我们需要访问目标网站,并等待页面加载完成。我们可以使用page.goto方法来访问一个URL,该方法返回一个Promise对象,表示页面导航的结果。我们可以使用await关键字来等待Promise对象的解决,或者使用then方法来添加回调函数。我们还可以使用page.waitForNavigation方法来等待页面导航完成,该方法接受一个可选的配置对象作为参数,其中可以设置等待的事件类型、超时时间等。例如:

// 创建一个异步函数,用于执行爬虫任务
(async () => {// 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面const browser = await puppeteer.launch({ headless: false });// 打开一个新的页面const page = await browser.newPage();// 设置请求头,模拟正常的浏览器行为await page.setExtraHTTPHeaders({'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',});// 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码await page.authenticate({username: '16YUN',password: '16IP',agent: new HttpProxyAgent('http://www.16yun.cn:9020'),});// 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发await page.goto('https://news.163.com/', {waitUntil: 'networkidle2',});
})();

使用选择器或XPath定位元素,并获取元素的属性或文本

然后,我们需要使用选择器或XPath定位元素,并获取元素的属性或文本。我们可以使用page.$方法来获取多个元素。这些方法接受一个字符串作为参数,表示选择器或XPath表达式。我们还可以使用page.evaluate方法来在页面上执行JavaScript代码,并返回执行结果。我们可以使用这个方法来获取元素的属性或文本,或者进行其他操作。例如:

// 创建一个异步函数,用于执行爬虫任务
(async () => {// 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面const browser = await puppeteer.launch({ headless: false });// 打开一个新的页面const page = await browser.newPage();// 设置请求头,模拟正常的浏览器行为await page.setExtraHTTPHeaders({'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',});// 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码 await page.authenticate({ username: ‘16YUN’, password: ‘16IP’, agent: new HttpProxyAgent(‘http://www.16yun.cn:9020), });// 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发 await page.goto(‘https://news.163.com/, { waitUntil: ‘networkidle2’, });// 使用选择器获取杭州亚运会相关的新闻列表,返回一个元素数组 const newsList = await page.$$(.news_title h3 a’);// 创建一个空数组,用于存储新闻数据 const newsData = [];// 遍历新闻列表,获取每个新闻的标题、链接、时间和来源 for (let news of newsList) { // 获取新闻的标题,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果 const title = await page.evaluate((el) => el.innerText, news);// 获取新闻的链接,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果    const link = await page.evaluate((el) => el.href, news);// 获取新闻的时间和来源,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果const timeAndSource = await page.evaluate((el) => el.parentElement.nextElementSibling.innerText,news);// 将新闻数据添加到数组中newsData.push({title,link,timeAndSource,});}// 打印新闻数据 console.log(newsData); })();                                                                                        

案例

运行上述代码,我们可以得到如下输出:

[{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'},{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'},{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'},{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'},{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'}
]

这样,我们就成功地使用Puppeteer进行了新闻网站数据抓取和聚合。

结语

本文介绍了如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。Puppeteer是一个强大的库,它可以让我们轻松地控制浏览器,实现各种自动化任务。通过使用代理IP,我们可以提高爬虫的效果,避免被目标网站屏蔽或限制。

http://www.yayakq.cn/news/835015/

相关文章:

  • 做网站后台搭建都用什么上海网站建设品
  • 商务网站建设调研wordpress与微信小程序
  • 滨州内做网站系统的公司网页制作的目的
  • 网站推广的方式包括seo综合查询 站长工具
  • 域名注册网站建设一个平台怎么推广
  • 在国外做外国的网站合法吗炉石卡牌制作网页
  • 网站开发需要经历哪些主要阶段网站备案期间可以做推广吗
  • 制作社交网站网页开发者模式快捷键
  • 做网站那个公司wordpress免费手机主题
  • 做网站英文编辑有前途吗seo扣费系统源码
  • 怎么做黑彩黑彩网站房屋装修案例
  • 镇江网站制作价格怎么给网站加友情链接
  • 沂水县住房和建设局网站海外免备案网站
  • 一条龙网站建设哪家专业爱前端主图wordpress
  • 网站开发 兼容模式广东省建设行业数据开放平台
  • wordpress建站费用国外汽车配件网站模板
  • wordpress 支付 API橘子seo查询
  • 怎么做监控直播网站生物医药网站建设
  • 网上做物理题赚钱的网站企业市场营销
  • 网站建设山西图片类网站开发需求
  • 网站建设所面临的问题dw个人主页制作模板
  • 做校园后勤管理网站得重点难点php网站开发实例报告
  • 建南沙做网站公司网站开发现在是热门专业吗
  • 做网站活动网络营销中的seo是指
  • 网站建设上的新闻建网站没有公司地址怎么办
  • 网站 可信验证网页图片下载插件
  • seo网站查询wordpress响应式主题
  • 永嘉县建设局网站2345网址导航怎么删除干净?
  • 网站备案 新增接入小程序制作联系方式怎么添加
  • 中关村在线官方网站华为网络工程师培训费用