当前位置: 首页 > news >正文

武威网站seo居民瑞app下载

武威网站seo,居民瑞app下载,无锡营销型网站制作,环球下载杭州网最近几天,paddleOCR开发了新的功能,通过将图片中的表格提取出来,效果还不错,今天,作者按照步骤测试了一波。 首先,讲下这个工具是干什么用的:它的功能主要是针对一张完整的PDF图片,可…

最近几天,paddleOCR开发了新的功能,通过将图片中的表格提取出来,效果还不错,今天,作者按照步骤测试了一波。

首先,讲下这个工具是干什么用的:它的功能主要是针对一张完整的PDF图片,可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以利用表格识别技术完整地提取表格结构信息,使得表格图片变为可编辑的Excel文件。如下图所示可以进行版面分析+表格识别。

核心技术在于两个:一个是PP-Structure的版面分析技术,另一个是PaddleDetection开源的高效检测算法PP-YOLO v2。

PP-Structure Pipeline介绍:

下面作者按照官网的说明进行安装(https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.2/ppstructure/README_ch.md):

#step1: 首先需要安装paddle
# GPU安装
python -m pip install paddlepaddle-gpu==2.1.1 -i https://mirror.baidu.com/pypi/simple

# CPU安装(作者在这里使用CPU安装)
 python -m pip install paddlepaddle==2.1.1 -i https://mirror.baidu.com/pypi/simple

#step2:安装 Layout-Parser
pip  install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

#step3:安装PaddleOCR(包含PP-OCR和PP-Structure)
pip install "paddleocr>=2.2"


这样就算安装好了,但是途中会有一些报错信息,一个是 "ImportError: DLL load failed: 找不到指定的模块。" ,在查阅了相关的资料之后,发现重新安装也没有用,作者是通过安装旧版本的软件,就解决了这个问题。另一个报错,是cv2.imread读取图像结果为none,这个错误是由于你的路径中有中文字体,全部修改为英文的即可。

接下来就是运行主要的程序代码,

1 import os2 import cv23 from paddleocr import PPStructure,draw_structure_result,save_structure_res4 5 table_engine = PPStructure(show_log=True)6 7 #你的文件结果目录8 save_folder = 'C:/Users/hp/Desktop/pdf_ocr/output/table'9 
10 #输入的图片
11 img_path = 'C:/Users/hp/Desktop/pdf_ocr/table/5.png'
12 img = cv2.imread(img_path)
13 
14 result = table_engine(img)
15 save_structure_res(result, save_folder,os.path.basename(img_path).split('.')[0])
16 
17 for line in result:
18     line.pop('img')
19     print(line)
20 
21 from PIL import Image
22 
23 #字体路径,可以从paddleOCR的github上面下载
24 font_path = 'C:/Users/hp/Desktop/pdf_ocr/fonts/simfang.ttf'25 image = Image.open(img_path).convert('RGB')
26 im_show = draw_structure_result(image, result,font_path=font_path)
27 im_show = Image.fromarray(im_show)
28 im_show.save('result.jpg')


运行完成后,每张图片会在​​output​​字段指定的目录下有一个同名目录,图片里的每个表格会存储为一个excel,图片区域会被裁剪之后保存下来,excel文件和图片名名为表格在图片里的坐标。

 这样,就可以看到识别出来的excel表格了。

http://www.yayakq.cn/news/85759/

相关文章:

  • 云南电信网站备案备案查询工信部
  • 长春优化青岛网站建设方案优化
  • 个人门户网站备案做网站js还是jq
  • 龙华网站优化网站建设里面链接打不开
  • 网站互动优化网站换域名seo
  • 上海室内设计公司排行榜北京网站优化开户
  • 扬州天猫网站建设中国核工业第二二建设有限公司待遇
  • 建设机械网站制作科技有限公司和商贸有限公司区别
  • 外贸用什么网站开发客户襄阳网站制作公司有哪些
  • 成全视频免费高清观看在线小说上海推广seo
  • python如何做自己的网站廊坊网页模板建站
  • 电子商务网站建设与维护的主要内容设计公司网站怎么做
  • 宁德建设银行网站怎么做网络营销推广啊
  • 建设网站找网络公司注册公注册公司流程和费用
  • 什么网站自己做名片好跨境电商做什么平台好
  • 仪征网站建设网站规划有前途吗
  • 做网站租用服务器网站建设怎么样做账
  • 城乡住房建设部网站保证金站长全网指数查询
  • 陕西建设网综合便民服务中心网站福建省网站建设公司
  • 电子商务网站建设课程标准那些网站做的比较好
  • 网站推广策划案例要塑造什么品牌加快建设博物馆群
  • 山东省建设执业师网站泉州网站开发
  • 建网站合同广告推广方案
  • 情公司做的网站wordpress 用户注册 插件
  • 南宁网站快上海网站建设报价单
  • 网站做零售沈阳黄页查询电话
  • 富平网站建设仿造整个网站
  • 网站建设电销话术静态网站建设
  • php做网站有哪些好处做网站纸张大小
  • 网站后台用什么做服务器长沙网络营销工程师最新招聘信息