当前位置: 首页 > news >正文

杭州做网站费用如何备份网站

杭州做网站费用,如何备份网站,青岛的建筑公司,wordpress的首页文件夹java 提供了一些库和工具可以用来把 PDF 文档和图片文档转成文本。 Apache PDFBox:这是一个开源的 PDF 库,可以用来提取 PDF 文件中的文本内容。 iText:这是一个用于创建和处理 PDF 文件的库,可以用来提取 PDF 文件中的文本内容。…

java 提供了一些库和工具可以用来把 PDF 文档和图片文档转成文本。

  1. Apache PDFBox:这是一个开源的 PDF 库,可以用来提取 PDF 文件中的文本内容。

  2. iText:这是一个用于创建和处理 PDF 文件的库,可以用来提取 PDF 文件中的文本内容。

  3. Tesseract OCR:这是一个开源的 OCR 引擎,可以用来识别图片中的文本。可以使用 Java Tesseract API 将 Tesseract 集成到 Java 项目中。

  4. ABBYY FineReader:这是一个商业 OCR 软件,可以识别多种文件格式中的文本内容,包括 PDF 和图片格式。可以使用 Java API 将 ABBYY FineReader 集成到 Java 项目中。

对于图片文档不好转的情况,可以尝试以下方法:

  1. 尝试使用更高分辨率的图片。更高的分辨率可以提高 OCR 引擎的识别精度。

  2. 尝试使用更清晰的图片。使用更清晰的图片可以减少识别错误。

  3. 尝试手动调整图片的亮度和对比度,以便更好地展示图片中的文本。

  4. 尝试使用更高级的 OCR 引擎,如 ABBYY FineReader,它具有更高的识别精度和更好的处理能力。

请注意,无论使用哪种方法,文本提取可能存在误差,需要手动进行校对和修正。

以下是使用 Apache PDFBox 库将 PDF 文档转换为文本的示例代码:

import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;public class PdfToTextConverter {public static void main(String[] args) {PDDocument document = null;try {// 读取 PDF 文件document = PDDocument.load(new File("path/to/pdf"));// 创建 PDFTextStripper 对象PDFTextStripper stripper = new PDFTextStripper();// 设置文本提取的起始页和结束页stripper.setStartPage(1);stripper.setEndPage(document.getNumberOfPages());// 提取文本内容String text = stripper.getText(document);System.out.println(text);} catch (IOException e) {e.printStackTrace();} finally {if (document != null) {try {document.close();} catch (IOException e) {e.printStackTrace();}}}}
}

以下是使用 Tesseract OCR 库将图片文档转换为文本的示例代码:

PDF 文件中的页面只包含图像,而没有可选的文字层。这意味着,不能直接使用 Tesseract OCR 引擎来提取文本内容,因为 OCR 引擎需要文本层才能进行文字识别。

在这种情况下,需要使用 PDF 图像提取工具将每个页面转换为单独的图像文件(如 PNG 或 JPEG 格式),然后再使用 Tesseract OCR 引擎对每个图像文件进行 OCR 文字识别。

<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.5.4</version>
</dependency>
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;import java.io.File;public class PdfToTextConverter {public static void main(String[] args) {// 设置 Tesseract OCR 引擎的语言Tesseract tesseract = new Tesseract();tesseract.setLanguage("eng");// 定义 PDF 文件路径和输出文本文件路径String pdfFilePath = "path/to/pdf";String outputTextFilePath = "path/to/output/text/file";try {// 将 PDF 文件转换为图像文件,并保存在指定目录中PdfToImageConverter pdfToImageConverter = new PdfToImageConverter(pdfFilePath);pdfToImageConverter.convertToImage("path/to/output/image/folder");// 初始化输出文本文件File outputTextFile = new File(outputTextFilePath);if (outputTextFile.exists()) {outputTextFile.delete();}outputTextFile.createNewFile();// 逐个处理图像文件,并将 OCR 文本输出到文本文件中for (int i = 1; i <= pdfToImageConverter.getPageCount(); i++) {String imagePath = "path/to/output/image/folder/page" + i + ".png";File imageFile = new File(imagePath);// 使用 Tesseract OCR 引擎提取文本内容String ocrText = tesseract.doOCR(imageFile);// 将 OCR 文本追加到输出文本文件中FileUtils.writeStringToFile(outputTextFile, ocrText, "UTF-8", true);}System.out.println("PDF 文件转换完成。");} catch (Exception e) {e.printStackTrace();}}

以下是关于Tesseract的常用网址
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
官方网站:https://github.com/tesseract-ocr/tesseract
官方文档:https://github.com/tesseract-ocr/tessdoc
语言包地址:https://github.com/tesseract-ocr/tessdata

注意事项:
1.尽量不要下载dev(开发中的版本),alpha(内部测试版,一般不向外部发布,会有很多Bug),beta(公测版本,即针对所有用户公开的测试版本)等版本。

2.建议下载最新稳定版本:
tesseract-ocr-w64-setup-v5.0.0.20190623.exe 2019-06-23 11:30 38M

其他的请参考这个:Tesseract-OCR 下载安装和使用_tesseract-ocr下载_半濠春水的博客-CSDN博客

http://www.yayakq.cn/news/6959/

相关文章:

  • 快递企业网站建设设计方案范例网站架构有哪些
  • 陕西省建设监理协会网站证件查询带有后台的网站开发软件
  • wordpress 网站描述建立网站项目计划书模板
  • 博达网站建设网站建设实训总结2000字
  • 开发网站需要怎么做施工企业对下结算容易出现的问题
  • 竞价网站托管高端网站建设 上海
  • 天津网站优化多少钱优质网站策划
  • 怎样建设网站是什么意思wordpress数据库优化插件
  • 配置jsp网站开发环境网站 内容
  • 南安市住房和城乡建设局网站国外专门做童装的网站有哪些
  • 在什么网站可以自承包活来做智能管理系统软件
  • 蓝色风格企业网站模板苏小小移动网站
  • 企业网站建设 百度文库做电商引流软文网站
  • 东莞定制网站开发免费域名申请教程
  • 有关网站建设合同免费flash网站模板带后台
  • 网站子目录绑定二级域名wordpress字体目录下
  • 网站链接推广工具wordpress新建页面添加导航
  • 可以制作网站的软件工业风格装修效果图
  • app设计理念怎么写汨罗网站seo
  • 医疗器械网站备案前置审批事例建设银行 网站无法打开
  • 做经营性的网站备案条件六数字域名做网站好不好
  • 如何提升wordpress网站速度wordpress阿里云域名转移
  • 网站建设如何不被忽悠昌大建设集团是哪里的
  • 网站做流量的论坛贴吧wordpress视频显示控件
  • 做ppt会去什么网站找图商务网站建设哪家好
  • 绿色企业网站模板网站开发的条件
  • 无锡企业网站制作策划贵州省住房和建设厅网网站
  • 科技感的网站成都园林设计公司推荐
  • 苏州建站模板系统upscale wordpress
  • 官方网站找做化妆品套盒子c2c网站开设店铺