当前位置: 首页 > news >正文

官网优化哪家专业天津网站搜索排名优化

官网优化哪家专业,天津网站搜索排名优化,十大广告联盟,做购物商城网站建设文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- …

文章目录

  • 一、前言
  • 二、实现方法
    • 1. 目录结构
    • 2. 代码


一、前言

此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法


二、实现方法

1. 目录结构

在这里插入图片描述


2. 代码

pdf2txt.py 代码如下

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import json
import osfrom pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParamsdef batch_process(src_dir, tgt_dir):'''批处理:return:'''for pdf_name in os.listdir(src_dir):pdf_path = os.path.join(src_dir, pdf_name)text_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.txt')json_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.json')pdf_utils = PDFUtils()pdf_list = pdf_utils.pdf2list(pdf_path)# pdf2txtwith open(text_path, mode='w', encoding='utf-8') as f:f.write(''.join([''.join(page) for page in pdf_list]))# pdf2jsonwith open(json_path, mode='w', encoding='utf-8') as f:f.write(json.dumps(pdf_list, ensure_ascii=False))class PDFUtils():def __init__(self):passdef pdf2list(self, path):pdf_list = []   # 二维数组,一维放页,二维放行with open(path, 'rb') as f:praser = PDFParser(f)doc = PDFDocument(praser)if not doc.is_extractable:raise PDFTextExtractionNotAllowedpdfrm = PDFResourceManager()laparams = LAParams()device = PDFPageAggregator(pdfrm, laparams=laparams)interpreter = PDFPageInterpreter(pdfrm, device)for page_idx, page in enumerate(PDFPage.create_pages(doc)):line_list = []   # 保存每行数据# print(page_idx)interpreter.process_page(page)layout = device.get_result()for line_idx, line in enumerate(layout):# print(line_idx)if hasattr(line, "get_text"):content = line.get_text()# print(content)# output = StringIO()# output.write(content)# content = output.getvalue()# output.close()# print(content)if content and content.replace(' ', '') != '\n':line_list.append(content)# print(content)pdf_list.append(line_list)# output.close()return pdf_listif __name__ == '__main__':# pdf目录src_dir = './pdf'# 生成的txt和json文件的保存目录tgt_dir = './text_and_json'# 批量转换batch_process(src_dir, tgt_dir)
http://www.yayakq.cn/news/848155/

相关文章:

  • 东莞市官网网站建设公司长春至少有500万人感染
  • 公司网站别人做的怎么签合同买程序的网站
  • 住房和城乡建设部网站招聘英文网站设计哪里好
  • 网站建设报价ppt模版微信小程序开发注册
  • 网站建设技术是干嘛的电商平台怎么搭建
  • 宿迁做网站公司微信公众号分享wordpress
  • 国外h5制作网站模板两个网站互相做外链
  • 网站建设文化报价制作京东一样的网站
  • 乌拉圭网站后缀怎么查二建注册在哪个公司
  • 嘉兴模板建站定制哈尔滨市建设工程信息网黑龙江
  • 西安网站建设APP开发百度云怎么找资源
  • 昆山网站开发ikelvwordpress 购买按钮
  • 苏州网站建设找哪家近五年关于网站建设的参考文献
  • 宁波外贸建站公司电子商务网站的建设课件
  • 响应式网站模板下载营销策划书范文1000字
  • 建设网站的一般步骤是深圳华强北营业时间
  • 国外ps素材网站如何建开发手机网站
  • 智慧政务网站怎么做枣庄有做网站的吗
  • 太原网络公司网站山西建设银行官方网站
  • 网站域名费用怎么做分录设计类专业网站
  • 网站建站六个目标游戏优化
  • 网站建设预算表格株洲定制网站建设
  • 一级A视网站 一级做爰片常州公司网站建设多少钱
  • 大连高端网站建设做网站推广有作用没
  • 重庆seo网络推广关键词常德网站建设网站优化
  • 静态网站做毕业设计网站建设价格差异多少
  • 推广做网站电话建自己的零售网站
  • 网站建设公司挣钱吗建设银行的官方网站积分商场
  • 熊掌号接合网站做seo个人网站有哪些站
  • 怎样建设网络游戏网站wordpress v2ex主题