当前位置: 首页 > news >正文

网站建设怎么让网站收录成都科技网站建设热

网站建设怎么让网站收录,成都科技网站建设热,展示型网站建设的标准,腾讯广告推广平台入口直觉上处理网页信息,很多人会先将网页保存成HTML,然后做文本分析。但这样做是不够的,因为网页可能内嵌图片,这些图片在HTML里就是一处链接,离线处理时无法还原,相当于丢失了图片信息。更好的做法是将整个网…

直觉上处理网页信息,很多人会先将网页保存成HTML,然后做文本分析。但这样做是不够的,因为网页可能内嵌图片,这些图片在HTML里就是一处链接,离线处理时无法还原,相当于丢失了图片信息。更好的做法是将整个网页一次性保存下来。

路径一:将网页保存成mhtml,然后保存成图片。没有现成的工具可以做到这点,mhtml可以通过直接将后缀改成doc以doc的方式打开。然后通过工具将doc转成图片。

路径二:将网页保存成mhtml,然后使用chromedriver保存成pdf,然后pdf再转图片。

路径三:使用chromedriver直接将网页保存成pdf,然后pdf再转图片。

import os
import csv
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
import base64def get_url_list(csv_path):content_list = []with open(csv_path, "r", encoding="gbk") as fin:csv_reader = csv.reader(fin)for line in csv_reader:content_list.append(line)title_list, url_list = list(zip(*content_list))return title_list, url_listif __name__ == "__main__":url_file_path = "title_url.csv"driver_location = 'chromedriver.exe的绝对路径'service = Service(driver_location)# 创建Chrome选项options = Options()# 无头模式,无界面options.add_argument("--headless")options.add_argument("--disable-gpu")driver = webdriver.Chrome(options, service)# 设置 PDF 选项pdf_options = {# 'paperWidth': 33.1,  # 纸张宽度,单位是英寸# 'paperHeight': 46.8,  # 纸张高度,单位是英寸'printBackground': True,  # 是否打印背景'landscape': False  # 是否横向打印}title_list, url_list = get_url_list(url_file_path)for i, url_path in enumerate(url_list):driver.get(url_path) # 打开网页# 使用 Chrome DevTools 协议保存为 PDFpdf_data = driver.execute_cdp_cmd('Page.printToPDF', pdf_options)# 解码并保存 PDF 文件pdf_content = base64.b64decode(pdf_data['data'])cur_title = title_list[i]cur_title = cur_title.replace("/", "_").replace("\\", "_")output_path = "pdf_output/" + cur_title + ".pdf"print(output_path)try:with open(output_path, 'wb') as file:file.write(pdf_content)except:print("fail", output_path)# 关闭 WebDriverdriver.quit()

http://www.yayakq.cn/news/685126/

相关文章:

  • 龙口网站开发广东省网站建设网站
  • 网站流量统计外贸入门基本知识
  • 网站建设多久学会网站开发可演示的版本
  • 网站设计开发是啥做电商的进货网站
  • 虹桥街道网站建设wordpress边栏
  • 怎么找到网站站长织梦笑话娱乐网站源码2w数据+36条采集规则
  • 成都双语网站开发wordpress后台用户名
  • 品牌网站建设c股j东大蝌蚪网站运维托管
  • 美食网站开发与设计任务书信息流优化师没经验可以做吗
  • 手机网站的模板下载软件打开链接即可玩的游戏
  • 桂林网站开发公司电话宽屏网站设计
  • 宁波培训网站建设用vs做网站的登录
  • 企业网站建设 新闻宣传网站架构教程
  • 网站设计方案怎么写余干网站建设制作
  • 铁门关市建设局网站建设企业网站官网下载
  • win2008 iis配置网站东莞南城做网站
  • 一般做个网站多少做网站多少钱网站建设原则应考虑哪些
  • 安阳哪里有做网站的南和网站建设公司
  • seo网站推广全程实例wordpress图片ssl
  • 建设银行贵阳银行下载官方网站电子商务网站前台设计
  • 网站站点管理在哪里wordpress 导入的模板
  • 凡科小程序模板网站seo优化合同
  • 网站多少页面合适专业网站营销
  • 网站单页在线制作手机如何编辑网页内容
  • 网站策划论坛太仓网站建设有限公司
  • 网站制作和推广lv官网三三网是什么网站
  • 阿里云模板建站怎么样网站流量怎么做的
  • 建设工程j教育网站ppt设计主题
  • 做短视频的网站收益微信小程序开发流程详细
  • 智能城市 电子商务网站建设合肥网站建设王道下拉??