当前位置: 首页 > news >正文

怎样选择网站的关键词wordpress 首页不更新

怎样选择网站的关键词,wordpress 首页不更新,wordpress评论回复邮件通知,wordpress时间相差8小时在这里,我总结了本次项目的数据收集过程中遇到的反爬虫策略以及一些爬虫过程中容易出现问题的地方。 user-agent 简单的设置user-agent头部为浏览器即可: 爬取标签中带href属性的网页 对于显示岗位列表的页面,通常检查其源代码就会发现&…

在这里,我总结了本次项目的数据收集过程中遇到的反爬虫策略以及一些爬虫过程中容易出现问题的地方。

user-agent

简单的设置user-agent头部为浏览器即可:
在这里插入图片描述

爬取标签中带href属性的网页

对于显示岗位列表的页面,通常检查其源代码就会发现,相应的标签处存在一个a标签,其中存在href属性值:
在这里插入图片描述
于是可以选择,爬取出该网页中的所有的href属性,再依次对href属性中的所有的网址进行爬取,

current_job_links=browser.find_elements(by=By.XPATH,value='//li[@class="border-top"]//a[@target="_blank"]')
for link in current_job_links:job_path = link.get_attribute("href")job_url = urljoin(self.base_url, job_path)job_links.append(job_url)

爬取使用js跳转的网页,进行选型卡管理

现在好多都是不存在href,而是使用javascript进行跳转,也就是点击卡片之后会新开一个选项卡,因此这里要使用selenium的选项卡管理来实现browser的url变化,从而获得新打开页面的url(如果不切换选项卡,即使模拟单击了卡片,也不能对打开的页面进行爬虫)
重点在于一定要记得切换选项卡!!

for card_element in card_elements:# 单击卡片元素browser.execute_script("arguments[0].click();",card_element)# 等待新页面加载完成wait.until(EC.number_of_windows_to_be(2))# 切换到新的窗口browser.switch_to.window(browser.window_handles[1])# 获取新页面的URLcurrent_url2 = browser.current_urlcurrent_url_list.append(current_url2)browser.close()

分页爬取

url变化实现换页

大部分网页都是通过url的变化实现翻页的:
在这里插入图片描述
因此只需要修改相应网址的pageNo即可,

if self.page < 100:self.page += 1# 换urlurl = 'https://zhaopin.meituan.com/web/position?hiringType=2_6&pageNo=' +str(self.page)#再次调用爬虫yield scrapy.Request(url=url, callback=self.parse, dont_filter=True)time.sleep(3)  # 设置3秒间隔

换页url不变

使用selenium模拟浏览器点击下一页按钮。所以需要在网页中定位到”下一页“按钮的位置

next_button = browser.find_element(by=By.XPATH,value='//[@id="target_list"]/div/div[2]/div[3]/button[2]')
if not next_button.is_enabled():break
browser.execute_script("arguments[0].click();", next_button)

同时注意判断停止条件,当按钮不可用时表示到达最后

登录问题

在爬取京东招聘时需要首先进行登录
使用如下代码实现模拟登陆:
在这里插入图片描述

http://www.yayakq.cn/news/237458/

相关文章:

  • 网站防站免费快递网站源码
  • 如何更改网站图标网站建设玖金手指谷哥三十
  • 陕西做网站的公司电话wordpress添加php页面
  • 帮别人设计做关于图的网站龙岗网站优化公司案例
  • 网站开发实用技术答案青岛做网站的 上市公司
  • 企业为什么网站建设python网站开发效率
  • 如何制作自己的网站在里面卖东西班级优化大师网页版登录
  • 网站建设完成后如何备案没有网站也可以做cpa
  • 好的网站具备如何做网站评估分析
  • 手机免费网站平台推广策略都有哪些
  • net域名做企业网站怎么样做微商选择的哪个平台微平台网站
  • 长春朝阳网站建设php购物网站开发成品
  • 黄埔网站建设哪家好用redis加速wordpress
  • 做网站 服务器永平建设有限公司网站
  • 亳州网站开发公司深圳营销建网站公司
  • 做网站 没内容网站开发赚钱吗
  • 购物商城网站开发网站建设充值入口
  • 苏州海外建站公司网站运营工作
  • 做宣传用什么网站好广州开发区人才交流服务中心
  • 长春一般建一个网站需要多少钱网站开发如何设置视频
  • 广元专业高端网站建设积分商城网站开发
  • 如何申请一个网站域名做婚恋网站
  • 网站建设完整方案模板制作过程
  • 手机版网站建设价格小程序推广任务
  • 晚上必看的正能量网站app购物网站建设市场调查论文
  • 做阀门的网站山东网站建设报价
  • 大连网站排名优化公司新手做电商怎么做
  • 网站定制一般价格多少成都市今天最新消息情况
  • 网站备案被注销南京建站公司网站
  • 没有网站可以做seowordpress搭建康乐