我的 pdf 包含扫描图像,我想从中提取文本。
我尝试过的:我尝试使用 AutoDetectParser 但没有输出。
我按照中提供的解决方案进行操作Apache Tika 提取扫描的 PDF 文件还有 Apache Tika Jira,位于https://issues.apache.org/jira/browse/TIKA-1729但得到空字符串没有任何错误。
我的配置:Win 7 64位操作系统,JDK 1.8.0_45。
欢迎任何形式的帮助。
解决此问题的步骤如下:
-
使用适用于 Windows 的“tesseract-ocr-setup-3.05.00dev.exe”在系统中安装 Tesseract:https://sourceforge.net/projects/tesseract-ocr-alt/files/并在您的配置中设置其位置。
Java代码:
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
TesseractOCRConfig config = new TesseractOCRConfig();
config.setTesseractPath(tPath);
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
pdfConfig.setExtractUniqueInlineImagesOnly(false); // set to false if pdf contains multiple images.
ParseContext parseContext = new ParseContext();
parseContext.set(TesseractOCRConfig.class, config);
parseContext.set(PDFParserConfig.class, pdfConfig);
//need to add this to make sure recursive parsing happens!
parseContext.set(Parser.class, parser);
Maven 依赖项:
<dependencies>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.13</version>
</dependency>
<dependency>
<groupId>com.levigo.jbig2</groupId>
<artifactId>levigo-jbig2-imageio</artifactId>
<version>1.6.5</version>
</dependency>
<dependency>
<groupId>com.github.jai-imageio</groupId>
<artifactId>jai-imageio-core</artifactId>
<version>1.3.1</version>
</dependency>
</dependencies>
我想这可能会有帮助。谢谢。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)