当前位置: 首页 > news >正文

长沙网站设计优刻wordpress 网站卡

长沙网站设计优刻,wordpress 网站卡,wordpress首页幻灯片设置,专业建设公司网站数据来源: https://www.cngold.org/img_date/ 因为这个网站是数据随时变动的,用requests、BeautifulSoup的方式解析html的话,数据的位置显示的是“--”,并不能取到数据。 所以采用webdriver访问网站,然后从界面上获取…

数据来源:

https://www.cngold.org/img_date/

因为这个网站是数据随时变动的,用requests、BeautifulSoup的方式解析html的话,数据的位置显示的是“--”,并不能取到数据。

所以采用webdriver访问网站,然后从界面上获取金价。

1、建表

在本地(服务器)上的mysql上建表,主要字段:sku、date_time、price,分别对应产品(也就是黄金)、时间、价格

2、读取金价函数

这个函数主要就是读取金价,并调用插入sql的函数:


def extract_info(url,id):print('开始')chrome_options = Options()chrome_options.add_argument('--disable-infobars')chrome_options.add_argument('--window-size=1920,1080')  # 可以设置浏览器窗口大小chrome_options.add_argument('--start-maximized')  # 可以让浏览器窗口最大化chrome_options.add_argument('--disable-extensions')  # 禁用扩展chrome_options.add_argument('--no-sandbox')  # 以最高权限运行chrome_options.add_argument('--disable-dev-shm-usage')  # 用于解决Chrome crash问题chrome_options.add_argument('--disable-browser-side-navigation')  # 禁用浏览器端导航chrome_options.add_argument('--enable-automation')  # 允许自动化chrome_options.add_argument("--headless")  # 设置Chrome无头模式print('过程1')driver=webdriver.Chrome(options=chrome_options)driver.get(url)print('过程2')driver.maximize_window()#time.sleep(5)text_list=driver.find_element(by=webdriver.common.by.By.XPATH,value='//html/body/div[3]/div/div[2]/div/div[3]/table/tbody/tr/td[2]/font')price_hour=text_list.textsql = 'insert into reptile.gold_price_log values("' + str(id) + '","' + datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S') + '",' + str(price_hour) + ');'print(sql)sql_insert(sql, id)

数据插入函数:


def sql_insert(sql,id):sql=sqlalchemy.text(sql)print(sql_getcnt(id))if sql_getcnt(id) == 0:try:con.execute(sql)con.commit()except:print('执行失败')print(sql)
3、数据验证函数

因为爬取数据的目标是每个小时记录一次,为了避免测试、调试的数据干扰,做一个验证的方法,如果这个小时已经有数据了,就不再运行上个函数了:


def sql_getcnt(id):g_sql = '''selectcount(*) as cntfrom reptile.gold_price_logwhere sku="黄金"and date_format(date_time,'%Y-%m-%d %H:00:00')="''' + datetime.datetime.now().strftime('%Y-%m-%d %H:00:00') + '''"order by sku desc,date_time desc'''g_sql = sqlalchemy.text(g_sql)data = pd.read_sql_query(sql=g_sql, con=con, index_col=['cnt'])cnt = list(data.index)[0]#print(cnt)return cnt
4、主方法

url_list=['https://www.cngold.org/img_date/']
sku_list=['黄金']for i in range(len(sku_list)):print(sql_getcnt(sku_list[i]))if sql_getcnt(sku_list[i])>100:time.sleep(random.uniform(1, 5))print(str(sku_list[i])+'已存在')else:url_id=url_list[i]extract_info(url_id,sku_list[i])

有些写法是之前脚本复制过来的,所以偶尔会有些奇怪哈哈哈。

5、配置每小时调用

因为这个脚本是设置在了云服务器上,所以要在linux服务器上设置定时执行,我这边的逻辑是shell脚本调用python脚本,然后定时执行shell脚本。

shell脚本内容:

然后:

crontab -e

这样,就可以每小时记录金价了。

http://www.yayakq.cn/news/270399/

相关文章:

  • 聊城做网站信息网站开发7个基本流程图
  • 网站编程教学上海做无创DNA医院网站
  • 网站建设怎么上传数据wordpress带会员的主题
  • 免费的行情网站ifind是常州百度网站排名
  • 手机网站焦点图二人世界视频免费
  • 织梦网站如何打通百度小程序图书馆网站建设研究
  • 网站不设置关键词描述深圳坪山住房和建设局网站
  • 6731官方网站下载动漫网站设计论文
  • 西部数码网站管理系统金点子创业项目
  • 网站策划专员所需知识注册公司怎么查询
  • 深圳做网站一个月多少钱网站建设 百度云盘
  • 电子商务安全问题 网站权限管理wordpress主题 dux1.8
  • 免费企业网站建设哪种马鞍山市建设银行网站
  • 信用中国 网站 支持建设高港区住房和城乡建设局网站
  • 做的网站为什么图片看不了昆山网站建设官网
  • 网站做优化好还是做推广好广西展厅设计公司
  • 券优惠网站如何做福田祥菱m2双排后双轮
  • 中国设计网站官网地址品牌营销传播
  • 金华官方网站建设在线电子印章制作生成免费
  • 深圳网站建设公司哪家网站建设通用代码
  • 网站平台建设情况汇报网站的域名在哪里看
  • 长沙建站优化夏邑做网站
  • 大足网站建设网站数据建设涉及哪些内容
  • 重庆沙坪坝做网站企业网站信息化建设
  • 网站建设的摊销定制营销型网站制作
  • 莱西网站建设哪家好企业注册百家号可以做网站吗
  • 织梦网站程序安装教程避免视觉效果混淆
  • 专业移动微网站设计flash网站系统
  • 招聘网站建设销售成品网站w灬源码火龙果
  • adsense用什么网站做网站上线有什么线上活动可以做