当前位置: 首页 > news >正文

公司做网站要多久成都到西安开车要多久

公司做网站要多久,成都到西安开车要多久,如何申请免费空间和域名,制作凡客诚品帮助中心页面文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- …

文章目录

  • 一、前言
  • 二、实现方法
    • 1. 目录结构
    • 2. 代码


一、前言

此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法


二、实现方法

1. 目录结构

在这里插入图片描述


2. 代码

pdf2txt.py 代码如下

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import json
import osfrom pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParamsdef batch_process(src_dir, tgt_dir):'''批处理:return:'''for pdf_name in os.listdir(src_dir):pdf_path = os.path.join(src_dir, pdf_name)text_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.txt')json_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.json')pdf_utils = PDFUtils()pdf_list = pdf_utils.pdf2list(pdf_path)# pdf2txtwith open(text_path, mode='w', encoding='utf-8') as f:f.write(''.join([''.join(page) for page in pdf_list]))# pdf2jsonwith open(json_path, mode='w', encoding='utf-8') as f:f.write(json.dumps(pdf_list, ensure_ascii=False))class PDFUtils():def __init__(self):passdef pdf2list(self, path):pdf_list = []   # 二维数组,一维放页,二维放行with open(path, 'rb') as f:praser = PDFParser(f)doc = PDFDocument(praser)if not doc.is_extractable:raise PDFTextExtractionNotAllowedpdfrm = PDFResourceManager()laparams = LAParams()device = PDFPageAggregator(pdfrm, laparams=laparams)interpreter = PDFPageInterpreter(pdfrm, device)for page_idx, page in enumerate(PDFPage.create_pages(doc)):line_list = []   # 保存每行数据# print(page_idx)interpreter.process_page(page)layout = device.get_result()for line_idx, line in enumerate(layout):# print(line_idx)if hasattr(line, "get_text"):content = line.get_text()# print(content)# output = StringIO()# output.write(content)# content = output.getvalue()# output.close()# print(content)if content and content.replace(' ', '') != '\n':line_list.append(content)# print(content)pdf_list.append(line_list)# output.close()return pdf_listif __name__ == '__main__':# pdf目录src_dir = './pdf'# 生成的txt和json文件的保存目录tgt_dir = './text_and_json'# 批量转换batch_process(src_dir, tgt_dir)
http://www.yayakq.cn/news/438493/

相关文章:

  • 合肥做网页的网络公司seo建设网站
  • 域名申请好了 要怎么做网站外贸专用网站
  • 加强旅游网站建设机关网站建设引导语
  • js网站大全自己建设网站在哪里建设
  • 官网和门户网站的区别威海网站定制
  • 网站站内推广wordpress制作小说网站模板
  • 丹徒做网站免费做团购网站的软件
  • 张掖网站建设公司WordPress无法提交评论
  • wordpress网站域名解析深圳做公司网站推广的
  • 口红做网站多少钱网站建设甲方给乙方的需求方案
  • 网站的空间什么意思微营销实战技巧全集
  • fms 视频网站建设自适应网站ui做几套
  • 大型网站开发经典框架全网关键词优化公司哪家好
  • 南宁手机做网站公司新手做网站服务器用什么
  • 网站轮播图怎么做烟台正规网站建设
  • 利用模板如何制作网站农业推广项目
  • 义乌互联网公司微信搜索seo优化
  • 烟台网站建设科技公司专业网站设计力荐亿企邦
  • 济宁网站建设 中企动力临沂手机网站翻页底时自动链接
  • 怎么做招投标网站线上推广策划方案
  • o2o免费网站建设山东住房和建设庭网站
  • 吉林省建设监理检测网站自己做网站出口
  • 提供服务的网站做我韩国连续剧网站
  • 网站开发商业机密做个网站需要多钱
  • 马鞍山网站建设电话苏州知名网站建设定制
  • 广州好的网站设计公司网站建设 海豚弯
  • 动画制作精灵南宁seo平台费用
  • 武威建设厅网站公司官网建设哪家好
  • 新郑建设局网站营销型网站建设公司哪家好哪个好
  • 设计 网站万万州州微微网站网站建建设设