当前位置: 首页 > news >正文

广州番禺网站制作公司wordpress修改自豪地采用

广州番禺网站制作公司,wordpress修改自豪地采用,wordpress按最后评论排序,网络培训软件每天面对成堆的发票,无论是税务发票还是承兑单据,抑或是其他各类公司数据要从照片、PDF等不同格式的内容中提取,我们都有必要进行快速办公的能力提升。因此,我们的目标要求就十分明显了,首先要从图片中获取数据&#x…

每天面对成堆的发票,无论是税务发票还是承兑单据,抑或是其他各类公司数据要从照片、PDF等不同格式的内容中提取,我们都有必要进行快速办公的能力提升。

因此,我们的目标要求就十分明显了,首先要从图片中获取数据,其次将数据统一导入到EXCEL中。

配置需求
1.ImageMagick : https://download.csdn.net/download/yyfloveqcw/87579790
2.tesseract-OCR : https://download.csdn.net/download/yyfloveqcw/87579801
3.Python3.7
4.from PIL import Image as PI
5.import io
6.import os
7.import pyocr.builders
8.from cnocr import CnOcr
9.import xlwt

分析上图发现票据金额为“贰拾万元整”,数据金额为大写中文,因此在导入Excel之前我们需要将金额票据的数据转换成数字的格式,基于此,我们需要首先完成大写汉字和数字的转换。

def chineseNumber2Int(strNum: str):result = 0temp = 1  # 存放一个单位的数字如:十万count = 0  # 判断是否有chArrcnArr = ['壹', '贰', '叁', '肆', '伍', '陆', '柒', '捌', '玖']chArr = ['拾', '佰', '仟', '万', '亿']for i in range(len(strNum)):b = Truec = strNum[i]for j in range(len(cnArr)):if c == cnArr[j]:if count != 0:result += tempcount = 0temp = j + 1b = Falsebreakif b:for j in range(len(chArr)):if c == chArr[j]:if j == 0:temp *= 10elif j == 1:temp *= 100elif j == 2:temp *= 1000elif j == 3:temp *= 10000elif j == 4:temp *= 100000000count += 1if i == len(strNum) - 1:result += tempreturn result

通过上述代码即可实现大写字母与数字的转换,例如输入“贰拾万元整”即可导出“200000”,再将其转换成数字后即可极大地简化表格的操作,也可以在完成表格操作的同时有利于数据归档。

接下来,我们需要分析发票的内部内容,分析下图可知,我们需要获取以下几个数据内容:“出票日期”、“汇票到账日期”、“票据号码”、“收款人”、“票据金额”、“出票人”,可以通过画图软件获取精准定位。

如图,小黑点即鼠标所在地,画图软件左下角即他的坐标。

  1. 提取出票日期
def text1(new_img):#提取出票日期left = 80top = 143right = 162bottom = 162image_text1 = new_img.crop((left, top, right, bottom))#展示图片#image_text1.show()txt1 = tool.image_to_string(image_text1)print(txt1)return str(txt1)
2.提取金额
def text2(new_img):#提取金额left = 224top = 355right = 585bottom = 380image_text2 = new_img.crop((left, top, right, bottom))#展示图片#image_text2.show()image_text2.save("img/tmp.png")temp = ocr.ocr("img/tmp.png")temp="".join(temp[0])txt2=chineseNumber2Int(temp)print(txt2)return txt2
3.提取出票人
def text3(new_img):#提取出票人left = 177top = 207right = 506bottom = 231image_text3 = new_img.crop((left, top, right, bottom))#展示图片#image_text3.show()image_text3.save("img/tmp.png")temp = ocr.ocr("img/tmp.png")txt3="".join(temp[0])print(txt3)return txt3
4.提取付款行
def text4(new_img):#提取付款行left = 177top = 274right = 492bottom = 311image_text4 = new_img.crop((left, top, right, bottom))#展示图片#image_text4.show()image_text4.save("img/tmp.png")temp = ocr.ocr("img/tmp.png")txt4="".join(temp[0])print(txt4)return txt4
5.提取汇票到账日期
def text5(new_img):#提取汇票到日期left = 92top = 166right = 176bottom = 184image_text5 = new_img.crop((left, top, right, bottom))#展示图片#image_text5.show()txt5 = tool.image_to_string(image_text5)print(txt5)return txt5
6.提取票据单据
def text6(new_img):#提取票据号码left = 598top = 166right = 870bottom = 182image_text6 = new_img.crop((left, top, right, bottom))#展示图片#image_text6.show()txt6 = tool.image_to_string(image_text6)print(txt6)return txt6

在将数据全部提取完成之后,即进入设置环节,我们需要首先将所有账单文件进行提取,获取他们的文件名和路径。

ocr=CnOcr()
tool = pyocr.get_available_tools()[0]
filePath='img'
img_name=[]
for i,j,name in os.walk(filePath):img_name=name

在获取完整后,即可进行数据导入Excel的操作。

count=1
book = xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet = book.add_sheet('test',cell_overwrite_ok=True)
for i in img_name:img_url = filePath+"/"+iwith open(img_url, 'rb') as f:a = f.read()new_img = PI.open(io.BytesIO(a))## 写入csvcol = ('年份','出票日期','金额','出票人','付款行全称','汇票到日期','备注')for j in range(0,7):sheet.write(0,j,col[j])book.save('1.csv')shijian=text1(new_img)sheet.write(count,0,shijian[0:4])sheet.write(count,1,shijian[5:])sheet.write(count,2,text2(new_img))sheet.write(count,3,text3(new_img))sheet.write(count,4,text4(new_img))sheet.write(count,5,text5(new_img))sheet.write(count,6,text6(new_img))count = count + 1

至此,完整流程结束。

附上源码全部:

from  wand.image import  Image
from PIL import Image as PI
import pyocr
import io
import re
import os
import shutil
import pyocr.builders
from cnocr import CnOcr
import requests
import xlrd
import xlwt
from openpyxl import load_workbookdef chineseNumber2Int(strNum: str):result = 0temp = 1  # 存放一个单位的数字如:十万count = 0  # 判断是否有chArrcnArr = ['壹', '贰', '叁', '肆', '伍', '陆', '柒', '捌', '玖']chArr = ['拾', '佰', '仟', '万', '亿']for i in range(len(strNum)):b = Truec = strNum[i]for j in range(len(cnArr)):if c == cnArr[j]:if count != 0:result += tempcount = 0temp = j + 1b = Falsebreakif b:for j in range(len(chArr)):if c == chArr[j]:if j == 0:temp *= 10elif j == 1:temp *= 100elif j == 2:temp *= 1000elif j == 3:temp *= 10000elif j == 4:temp *= 100000000count += 1if i == len(strNum) - 1:result += tempreturn resultdef text1(new_img):#提取出票日期left = 80top = 143right = 162bottom = 162image_text1 = new_img.crop((left, top, right, bottom))#展示图片#image_text1.show()txt1 = tool.image_to_string(image_text1)print(txt1)return str(txt1)
def text2(new_img):#提取金额left = 224top = 355right = 585bottom = 380image_text2 = new_img.crop((left, top, right, bottom))#展示图片#image_text2.show()image_text2.save("img/tmp.png")temp = ocr.ocr("img/tmp.png")temp="".join(temp[0])txt2=chineseNumber2Int(temp)print(txt2)return txt2def text3(new_img):#提取出票人left = 177top = 207right = 506bottom = 231image_text3 = new_img.crop((left, top, right, bottom))#展示图片#image_text3.show()image_text3.save("img/tmp.png")temp = ocr.ocr("img/tmp.png")txt3="".join(temp[0])print(txt3)return txt3
def text4(new_img):#提取付款行left = 177top = 274right = 492bottom = 311image_text4 = new_img.crop((left, top, right, bottom))#展示图片#image_text4.show()image_text4.save("img/tmp.png")temp = ocr.ocr("img/tmp.png")txt4="".join(temp[0])print(txt4)return txt4
def text5(new_img):#提取汇票到日期left = 92top = 166right = 176bottom = 184image_text5 = new_img.crop((left, top, right, bottom))#展示图片#image_text5.show()txt5 = tool.image_to_string(image_text5)print(txt5)return txt5
def text6(new_img):#提取票据号码left = 598top = 166right = 870bottom = 182image_text6 = new_img.crop((left, top, right, bottom))#展示图片#image_text6.show()txt6 = tool.image_to_string(image_text6)print(txt6)return txt6ocr=CnOcr()tool = pyocr.get_available_tools()[0]filePath='img'
img_name=[]
for i,j,name in os.walk(filePath):img_name=name
count=1book = xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet = book.add_sheet('test',cell_overwrite_ok=True)for i in img_name:img_url = filePath+"/"+iwith open(img_url, 'rb') as f:a = f.read()new_img = PI.open(io.BytesIO(a))## 写入csvcol = ('年份','出票日期','金额','出票人','付款行全称','汇票到日期','备注')for j in range(0,7):sheet.write(0,j,col[j])book.save('1.csv')shijian=text1(new_img)sheet.write(count,0,shijian[0:4])sheet.write(count,1,shijian[5:])sheet.write(count,2,text2(new_img))sheet.write(count,3,text3(new_img))sheet.write(count,4,text4(new_img))sheet.write(count,5,text5(new_img))sheet.write(count,6,text6(new_img))count = count + 1
http://www.yayakq.cn/news/75509/

相关文章:

  • 中国网站排名网广东装修公司排名前十强
  • 个人博客网页完整代码百度关键词优化大师
  • 长沙专业网站设计石家庄市鹿泉区确诊病例
  • 国外设交网站开发客户的重要性做宴会网站
  • 知名的食品行业网站开发微商好货源app下载
  • 网站自动优化怎么样未央网站建设
  • 专门学习网站建设读什么专业舆情网站推荐
  • 单县网站定制宁夏交通建设股份有限公司网站
  • 网站推广是网站建设完成之后的长期工作网站栏目的分类
  • 网站策划做啥最新首码项目发布网
  • 建设公众号官方网站wordpress rss feed
  • 山东免费网站建设怎么让自己做的网站别人可以访问
  • 网站开发设计大赛小程序搜索排名帝搜sem880官网
  • 淄博周村网站建设报价自己做电影网站需要什么
  • 做网站做系统常用网站域名
  • 道路建设网站花卉网站开发可行性
  • 网站建设总结和体会为知笔记发布WordPress
  • 网站开发报价 知乎网站设计机构排行榜
  • 哪个网站在线做头像好成免费crm软件
  • 建设银行信用卡积分兑换网站网页编辑工具是什么
  • 网站技术培训苏州淘宝运营培训
  • 模板板网站app ui设计网站
  • dedecms建设慕课网站旅行社网站建设规划
  • 免费设计logo网站有哪些镇江京口区
  • 简单网站开发实例教程企业营销策划书如何编写
  • 单位门户网站建设网站建设哪家好知道
  • 怎么在服务器上部署网站做瞹瞹嗳免费网站在线观看
  • 规避电子政务门户网站建设的教训一屏一屏的网站怎么做
  • 私募股权基金网站建设云主机做网站域名打不开
  • 织梦能不能做门户网站做网站后台数据库建设