当前位置: 首页 > news >正文

网站开发资格证书做房产经纪人要自己花钱开网站吗

网站开发资格证书,做房产经纪人要自己花钱开网站吗,2017我们一起做网站,cms系统管理今天写一个爬虫爱好者特别喜欢的网站煎蛋网 http://jandan.net/ooxx ,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措…

今天写一个爬虫爱好者特别喜欢的网站煎蛋网 http://jandan.net/ooxx ,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用 selenium 在揍他一波。

整体看上去,煎蛋网的妹子图质量还是可以的,不是很多,但是还蛮有味道的,这可能也是爬虫er,一批一批的奔赴上去的原因。

fd4d258ed0eae852398ef4f0febae895.png

1. 网站分析

这个网站如果用 selenium 爬取,其实也没什么要分析的,模拟访问就行,导入必备的模块。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import etree
import requests
import time

我使用的是 PhantomJS 去加载浏览器,关于这个 PhantomJS ,去互联网搜索一下吧,资料大把,会看的很爽的,总之呢,它可以模拟一个真实的浏览器做任何事情,得到你想要的数据。

browser = webdriver.PhantomJS()
browser.set_window_size(1366, 768)  # 这个地方需要设置一下浏览器的尺寸
wait = WebDriverWait(browser,10)
browser.get("http://jandan.net/ooxx")

2. 分析数据

Python资源共享群:484031800

程序获取到数据之后就可以对数据进行处理了,编写一个 get_content 函数,用来处理网页源码。

def get_content():try:wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="comments"]/ol')))#print("正在爬取{}".format(browser.current_url))page_source = browser.page_source  # 获取网页源码html = etree.HTML(page_source)  # 解析源码imgs = html.xpath("//li[contains(@id,'comment')]//img/@src")  # 匹配图片download(imgs)except Exception as e:print("错误")print(e)finally:browser.close()

图片获取到之后,在上面的代码中,注意有一个地方调用了一个 download 函数,这个函数就是用来下载图片的

def download(imgs):path = "./xxoo/{}"  # 路径我写死了for img in imgs:try:res = requests.get(img)content = res.contentexcept Exception as e:print(e)continuefile_name = img.split("/")[-1] # 获取文件名with open(path.format(file_name),"wb") as f:f.write(content)print(file_name,"成功下载文件")time.sleep(0.3)# 循环下载完毕,进行翻页操作 previous-comment-pagenext = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="comments"]//a[@class="previous-comment-page"]')))next.click()return get_content()  # 继续调用上面的网页源码分析流程

551031d64e1ec991b9a525847bae0fab.png
http://www.yayakq.cn/news/161806/

相关文章:

  • 大型网站建设翻译英文做软件的中介网站
  • 网站备案号收回wordpress高级模板下载
  • 潍坊做网站哪家公司最好企业开办网站
  • 北京建设局网站一般制作一个app需要多少钱
  • 宠物之家网站开发施工企业负责人带班检查计划
  • 东营建设信息网站做游戏网站要多少钱
  • c2c网站有哪些?我自己做个网站怎么做
  • 河西做网站网站制作com
  • 陕西省国家示范校建设专题网站企业网站建站哪家好
  • 法律顾问 网站 源码本科毕业 做网站编辑
  • 北京做网站成都网站建设创意
  • 天津品牌网站建设好处企业网页制作公司
  • 石林彝族网站建设扬州seo招聘
  • 顶呱呱网站做的怎么样深圳工程建设服务网
  • 需要前置审批的网站百度做网站需要多少钱
  • 宝安网站设计案例建站工具指北
  • 仙居住房和城乡建设局网站做网站反复修改
  • 淄博网站制作高端网络wordpress国内访问不了
  • 哪些网站可以做任务wordpress移除注册登录界面图标
  • 石家庄商城网站制作普通电脑如何做网站服务器吗
  • 西安优秀的集团门户网站建设费用镇江公交优化
  • 地方门户网站管理系统博客社区类网站模板下载
  • 网站开发的工作需要什么材料网络品牌营销案例
  • 免费做网站怎么做网站链接seo优化或网站编辑
  • 网站建设板块免费下载小程序微商城定制开发
  • 做网站用的浏览器有哪些益阳做网站公司
  • 做网站费华为网站开发
  • 常州公司网站模板建站wdcp搭建网站教程
  • 网站开发可以当程序员wordpress 关键词 插件
  • 网站建设物理架构网站开发技术方案doc