使用 GNU Parallel 组合两个命令用于 OCR 项目

2023-12-06

我想编写一个运行命令的脚本OCRpdfs，在写入文本文件后删除生成的图像。

我想要组合的两个命令如下。

该命令创建文件夹，解压pgm从每个PDF并将它们添加到每个文件夹中：

time find . -name \*.pdf | parallel -j 4 --progress 'mkdir -p {.} && gs -dQUIET -dINTERPOLATE -dSAFER -dBATCH -dNOPAUSE -dPDFSETTINGS=/screen -dNumRenderingThreads=4 -sDEVICE=pgmraw -r300 -dTextAlphaBits=4 -sProcessColorModel=DeviceGray -sColorConversionStrategy=Gray -dOverrideICC -o {.}/{.}-%03d.pgm {}'

此命令执行 OCR 并删除生成的图像 (pgm):

time find . -name \*.pgm | parallel -j 4 --progress 'tesseract {} {.} -l deu_frak && rm {.}.pgm'

我想组合这两个命令，以便脚本删除pgm每次 OCR 后的图像。如果我运行上述命令，第一个命令将提取图像并耗尽我的磁盘空间，然后第二个命令将执行 OCR，只有在这之后才删除图像作为最后一步。

So,

创建文件夹
从 PDF 中提取 PGM
OCR 从 PGM 到 txt
删除刚刚使用过的PGM图像（丢失）

基本上，我希望每个步骤都按此顺序完成PDF分开并不适合所有人PDF立刻。我怎样才能做到这一点？

Edit:

我解决问题的第一次尝试是创建以下命令：

time find . -name \*.pdf | parallel -j 4 -m --progress --eta 'mkdir -p {.} && gs -dQUIET -dINTERPOLATE -dSAFER -dBATCH -dNOPAUSE -dPDFSETTINGS=/screen -dNumRenderingThreads=4 -sDEVICE=pgmraw -r300 -dTextAlphaBits=4 -sProcessColorModel=DeviceGray -sColorConversionStrategy=Gray -dOverrideICC -o {.}/{.}-%03d.pgm {}' && time find . -name \*.pgm | parallel -j 4 --progress --eta 'tesseract {} {.} -l deu_frak && rm {.}.pgm'

但是，tesseract 找不到语言包。

更新答案

我还没有测试过这个，请在copy文件的一小部分。您可以使用以下命令关闭消息DEBUG:一开始，如果你很高兴，它看起来不错：

#!/bin/bash

# Declare a function for "parallel" to call
doit() {
    # Get name of PDF with and without extension
    withext="$1"
    noext="$2"
    echo "DEBUG: Processing $withext into $noext"

    # Make output directory
    mkdir -p "$noext"

    # Extract as PGM into subdirectory
    gs ... -o "$noext"/"${noext}-%03d.pgm $withext"

    # Go to target directory or die with error message
    cd "$noext" || { echo ERROR: Failed to cd to $noext ; exit 1; }

    # OCR and remove each PGM 
    n=0
    for f in *pgm; do
       echo "DEBUG: OCR $f into $n"
       tesseract "$f" "$n" -l deu_frak
       echo "DEBUG: Remove $f"
       rm "$f"
       ((n=n+1))
    done 
}

# Ensure the function is exported to subshells
export -f doit

find . -name \*.pdf -print0 | parallel -0 doit {} {.}

您应该能够测试doit()功能无parallel通过运行：

doit someFile.pdf someFile

原答案

如果你想为每个参数做很多事情GNU 并行，最简单的方法是声明一个bash函数，然后调用它。

它看起来像这样：

# Declare a function for "parallel" to call
doit() {
    echo "$1" "$2"
    # mkdir something
    # extract PGM
    # do OCR
    # delete PGM
}

# Ensure the function is exported to subshells
export -f doit

find some files -print0 | parallel -0 doit {} {.}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pdf

parallelprocessing

OCR

Tesseract

PGM

使用 GNU Parallel 组合两个命令用于 OCR 项目的相关文章

如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

我正在尝试在 Windows 中训练 Tesseract 为此我需要一对 tiff box 文件并且我正在尝试使用 jTessBoxEditor 创建它但它不接受图像作为输入我也尝试过 boxFactory 但它无法正常运行有谁知道
在Tomcat中设置环境变量TESSDATA_PREFIX

我们正在使用名为 Tess4J 的 Tesseract OCR Java 库如果作为独立应用程序运行它可以正常工作它需要一个名为 TESSDATA PREFIX 的变量其中包含 tessdata 配置和其他字符集相关文件它也可以与
并行 Haskell - GHC GC 火花

我有一个正在尝试并行化的程序带有可运行代码的完整粘贴here http lpaste net 101528 我进行了分析发现大部分时间都花在findNearest这本质上是一个简单的foldr超过一个大Data Map findNear
报告实验室性能低下

我在用着报告实验室将一些大型图书馆俄语纯文本转换为 pdf 格式当原始文件足够小例如大约 10 50 kB 时它可以正常工作但是如果我尝试转换大文本超过 500kB 则需要花费大量时间来进行报告实验室有谁知道可能是什么问
tbb：并行查找第一个元素

我遇到了这个问题查找列表中满足给定条件的第一个元素不幸的是该列表相当长 100 000 个元素并且使用单个线程评估每个元素的条件总共需要大约 30 秒有没有办法干净地并行化这个问题我浏览了所有tbb模式但找不到任何合适的 UP
如何将二维数组作为 multiprocessing.Array 传递给 multiprocessing.Pool？

我的目标是将父数组传递给mp Pool并填充它2s 同时将其分发到不同的进程这适用于一维数组 import numpy as np import multiprocessing as mp import itertools def wor
在 iOS 中，如何以编程方式填写 pdf 表单字段？

我需要获取一个现有的 pdf 文件并以编程方式填写带有文本的表单字段列表然后保存 pdf 而不将其显示给用户例如如果 pdf 文件包含名为 LastName 和 FirstName 的字段我想将 FirstName 的值设置为 L
Swift Siesta 访问响应原始数据

我的 API 中有一个返回 PDF 文件内容的方法如何在成功回调中获取响应的原始数据所有午睡响应均以原始数据开始以基础类型的形式Data 然后运行变压器管道 http bustoutsolutions github io siesta
如何为 Android 创建我们自己的 PDF 查看器？

我想构建一个可在我的 Android 应用程序中使用的 PDF 阅读器查看器但我无法使用 Google 文档来阅读我的内容我无法使用我的设备中已安装的任何 PDF 阅读器它应该位于我的应用程序内并且不会通过互联网公开我的安全内容
如何从纯文本文件中解析文本并使用结果突出显示 PDF 文件

早在 2010 年就有人声称能够做到这一点 http www mobileread com forums showthread php t 103847 http www mobileread com forums showthread
Eigen 和 OpenMP：由于错误共享和线程开销而没有并行化

系统规格 Intel Xeon E7 v3 处理器 4 插槽 16 核插槽 2 线程核心 Eigen 系列和 C 的使用以下是代码片段的串行实现 Eigen VectorXd get Row const int j const int
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
裁剪 .pdf 文件的页面

我想知道是否有人有以编程方式处理 pdf 文件的经验我有一个 pdf 文件我需要将每一页裁剪到一定大小经过快速谷歌搜索后我找到了 python 的 pyPdf 库但我的实验失败了当我更改页面对象上的cropBox 和trimBo
Eclipse PTP：在本地计算机上运行并行（MPI）应用程序？

必须如何配置 eclipse PTP 才能在本地计算机上使用 OpenMPI 运行 MPI 应用程序使用添加资源管理器我可以选择 OpenMPI 并在连接名称中切换到本地主机但仍然要求我提供一些用户名和密码这是正确的方法吗 D
在 Rails 中强制内联渲染 PDF 文档

我正在编写一个从一组 XML 文件生成 PDF 文件的服务正在正确生成 PDF 但是每次我单击查看 PDF 链接时浏览器都会要求用户下载 PDF 文件我需要 PDF 内联显示就像任何常规 HTML 页面一样我虽然我写的代码是正
数字签名（PKCS#7 - 延迟签名）/自应用签名以来文档已被更改或损坏

我已经浏览了所有类似的问题但找不到应用 itextsharp 延迟签名的情况基本上我的应用程序使用以下方式签署 pdf 文档PKCS 7由远程 Web 服务创建的签名我的应用程序向此 Web 服务发送原始文档的哈希值添加空签名字段
从 puppeteer PDF 中删除分页符？

我目前正在尝试查看是否有一种方法可以删除我的 puppeteer PDF 中的分页符因为我当前的 PDF 设置中的一些分页符正在以一种奇怪的方式切断文本我正在谈论的内容的屏幕截图我的傀儡代码 app get companyId pdf
一起使用 R6 类和 foreach() %dopar% 的问题

当与 foreach 一起使用时我在 R6 类上遇到问题可能与环境有关我使用的是 Windows 假设有两个 R6 类 class1 和 class2 class1 中的 method1 依赖于 class2 例如请参见下面的示例代
如何使用python从文件夹中的pdf中提取文本并将其保存在数据框中？

我有很多文件夹每个文件夹都有几个 pdf 文件也有其他文件类型如 xlsx 或 doc 我的目标是提取每个文件夹的pdf文本并创建一个数据框其中每条记录都是文件夹名称每列以字符串形式表示该文件夹中每个pdf文件的文本内容我设法
在 iOS 上将 SwiftUI 视图转换为 PDF

我用 SwiftUI 画了一些漂亮的图表因为它非常简单且容易做然后我想将整个 SwiftUI 视图导出为 PDF 以便其他人可以以良好的方式查看图表 SwiftUI 没有直接为此提供解决方案 Cheers Alex 经过一番思考我想到

随机推荐

如何结合zend框架和Codeigniter？

如何结合zend框架和Codeigniter 我有两个应用程序一个是 zend 另一个是 codeigniter 是否可以将这两个框架合并到一个项目中如果是这样如何结合这两个框架以及其文件结构是什么感谢您的帮助当然有可能我曾参与
$ 未在 JavaScript 中定义

Firebug 报告称未定义中断此错误 function 我有一个简单的 index php 页面它执行 php include 来包含我需要的内容内容如下
列表适配器中的回调方法不起作用

我使用了上一个问题中指导使用的回调方法这似乎不起作用未调用 onClick 方法回调方法似乎是一个非常广泛的概念我不知道如何缩小搜索范围以获得相关信息或者如何找到我得到的代码有什么问题列表活动适配器已初始化并在此处设置点击侦
如何识别脚本是否在tty上运行？

我希望我的脚本在交互式 shell 会话中以及使用重定向的 stdout 运行时例如通过管道传输到其他命令时以不同的方式运行我如何识别 Python 脚本中发生这两者中的哪一个现有程序中此类行为的示例 grep color aut
在jQuery中，如何将多个delay()方法与css()一起使用？

我怎样才能实现以下目标了解如果我只能使用一次延迟setTimeout this css delay css delay css EDIT The CSS values altered are non numerical jQuery de
QT：QSqlDatabase：未加载 QMYSQL 驱动程序 [WINDOWS]

萨拉姆阿莱库姆大家好我正在尝试创建一个 QT 界面来连接到 MYSQL 数据库但它总是给出一个错误 QSqlDatabase QMYSQL driver not loaded QSqlDatabase available drive
反转数字中的数字

我想在 python 中反转数字中的数字这是我的两个实现 One 将数字转换为字符串并反转其中的每个字符 number 2376674032 number s str number index len number s 1 str lis
使用 karma+jasmine 测试订阅角度 2 中的位置 (this.location.subscribe)

我正在订阅角度定位服务在我的组件中 this location subscribe ev PopStateEvent gt this lastPoppedUrl ev url 我希望能够将它与我的组件的其余部分一起测试现在我的 compo
hive中多行JSON文件查询

我明白那个多数的JSON SerDe 格式期望 json文件以每行一条记录的方式存储我有一个带有多行缩进的 S3 存储桶 json我想使用 Amazon Athena 查询的文件不控制源尽管我认为这通常也适用于 Hive 是否有 Se
android 中总是 FileNotFoundException 权限被拒绝

为什么我总是收到此错误 FileNotFoundException Permission Denied 代码运行顺利但是当我单击要下载的文件时它不会被下载请帮我我对此很陌生这是我的日志猫 03 28 09 19 34 695 E
如何在 jQuery Mobile 中更改页面？ [复制]

这个问题在这里已经有答案了我的代码是这样的 div div div div class ui content div div
将嵌套 FOR 循环转换为 PARFOR 循环 matlab

我有这些嵌套的 for 循环我想将它们转换为 parfor row 1 for i 5 0 2 5 4 col 1 for j 2 0 5 2 5 matrx row col i j col col 1 end row row 1 end
如何使用 Java 读取 AWS S3 文件？

我尝试将文件从 AWS S3 读取到我的 java 代码中 File file new File s3n mybucket myfile txt FileInputStream fileInput new FileInputStream f
打字稿表单重置（）不起作用

我正在使用打字稿重置表单但它不起作用或打字稿编译器 1 0 3 版本无法识别重置函数编译器给出错误 Build Interface HTMLFormElement incorrectly extends interface HTML
X11 在 Mac OSX 10.11.6 上的 XCode 中使用 CImg 标头时出现问题

我将 X11 添加到我的标头搜索路径库搜索路径中并且在 XCode 的构建设置和构建阶段中将二进制文件链接到 X11 库但是我仍然收到下图所示的错误我 99 999 确定问题是 X11 因为当我禁用显示功能时警告不存在关于我下一
使用 selenium(webdriver) 的 Python 程序不能作为单个且无控制台的 exe 文件运行 (pyinstaller)

以下是我的Python代码 t py from tkinter import messagebox from tkinter import from selenium import webdriver def clicked iedrive
System V amd64 如何处理很长的返回值？

我正在简要研究 amd64 x86 64 架构的 System V ABI 并且很好奇它如何处理超过 128 位的返回值其中rax and rdx还不够我在 Ubuntu 18 04 64 位更一般地说任何 amd64 POSIX
为 CUDA 实现 32 位 memset 的“正确”方法是什么？

CUDA有API调用 cudaError t cudaMemset void devPtr int value size t count 它用单字节值填充缓冲区我想用多字节值填充它假设为了简单起见我想填充devPtr具有 32 位
Reactjs：将相同的道具传递给多个组件

我对 ReactJS 有点陌生我正在尝试做一些清理工作我想知道如何使用新 context api 提供的 props 的扩展属性
使用 GNU Parallel 组合两个命令用于 OCR 项目

我想编写一个运行命令的脚本OCRpdfs 在写入文本文件后删除生成的图像我想要组合的两个命令如下该命令创建文件夹解压pgm从每个PDF并将它们添加到每个文件夹中 time find name pdf parallel j 4 prog

使用 GNU Parallel 组合两个命令用于 OCR 项目

使用 GNU Parallel 组合两个命令用于 OCR 项目 的相关文章

随机推荐

热门标签

使用 GNU Parallel 组合两个命令用于 OCR 项目的相关文章