如何在MapReduce程序中解析PDF文件？

2023-12-03

我想在我的 hadoop 2.2.0 程序中解析 PDF 文件，我发现this，按照它所说的，到现在为止，我有这三个课程：

PDFWordCount:包含map和reduce函数的主类。（就像原生 hadoop 字数统计样本但代替TextInputFormat我用我的PDFInputFormat class.

PDFRecordReader extends RecordReader<LongWritable, Text>:这是这里的主要工作。特别是我把我的initialize此处功能可获取更多说明。

public void initialize(InputSplit genericSplit, TaskAttemptContext context)
      throws IOException, InterruptedException {
      System.out.println("initialize");
      System.out.println(genericSplit.toString());
    FileSplit split = (FileSplit) genericSplit;
    System.out.println("filesplit convertion has been done");
    final Path file = split.getPath();
    Configuration conf = context.getConfiguration();
    conf.getInt("mapred.linerecordreader.maxlength", Integer.MAX_VALUE);
    FileSystem fs = file.getFileSystem(conf);
    System.out.println("fs has been opened");
    start = split.getStart();
    end = start + split.getLength();
    System.out.println("going to open split");
    FSDataInputStream filein = fs.open(split.getPath());
    System.out.println("going to load pdf");
    PDDocument pd = PDDocument.load(filein);
    System.out.println("pdf has been loaded");
    PDFTextStripper stripper = new PDFTextStripper();
    in =
    new LineReader(new ByteArrayInputStream(stripper.getText(pd).getBytes(
        "UTF-8")));
    start = 0;
    this.pos = start;
    System.out.println("init has finished");
  }

（你可以看到我的system.out.printlns 用于调试。该方法转换失败genericSplit to FileSplit。我在控制台中看到的最后一件事是：

hdfs://localhost:9000/in:0+9396432

这是genericSplit.toString()

PDFInputFormat extends FileInputFormat<LongWritable, Text>:这只是创造了new PDFRecordReader in createRecordReader method.

我想知道我的错误是什么？

我需要额外的课程或其他什么吗？

阅读 PDF 并不那么困难，您需要扩展类 FileInputFormat 以及 RecordReader。 FileInputClass 不应该能够分割 PDF 文件，因为它们是二进制文件。

public class PDFInputFormat extends FileInputFormat<Text, Text> {

  @Override
  public RecordReader<Text, Text> createRecordReader(InputSplit split,
    TaskAttemptContext context) throws IOException, InterruptedException {
      return new PDFLineRecordReader();
  }

  // Do not allow to ever split PDF files, even if larger than HDFS block size
  @Override
  protected boolean isSplitable(JobContext context, Path filename) {
    return false;
  }

}

然后 RecordReader 自行执行读取（我使用 PDFBox 来读取 PDF）。

public class PDFLineRecordReader extends RecordReader<Text, Text> {

private Text key = new Text();
private Text value = new Text();
private int currentLine = 0;
private List<String> lines = null;

private PDDocument doc = null;
private PDFTextStripper textStripper = null;

@Override
public void initialize(InputSplit split, TaskAttemptContext context)
        throws IOException, InterruptedException {

    FileSplit fileSplit = (FileSplit) split;
    final Path file = fileSplit.getPath();

    Configuration conf = context.getConfiguration();
    FileSystem fs = file.getFileSystem(conf);
    FSDataInputStream filein = fs.open(fileSplit.getPath());

    if (filein != null) {

        doc = PDDocument.load(filein);

        // Konnte das PDF gelesen werden?
        if (doc != null) {
            textStripper = new PDFTextStripper();
            String text = textStripper.getText(doc);

            lines = Arrays.asList(text.split(System.lineSeparator()));
            currentLine = 0;

        }

    }
}

    // False ends the reading process
@Override
public boolean nextKeyValue() throws IOException, InterruptedException {

    if (key == null) {
        key = new Text();
    }

    if (value == null) {
        value = new Text();
    }

    if (currentLine < lines.size()) {
        String line = lines.get(currentLine);

        key.set(line);

        value.set("");
        currentLine++;

        return true;
    } else {

        // All lines are read? -> end
        key = null;
        value = null;
        return false;
    }
}

@Override
public Text getCurrentKey() throws IOException, InterruptedException {
    return key;
}

@Override
public Text getCurrentValue() throws IOException, InterruptedException {
    return value;
}

@Override
public float getProgress() throws IOException, InterruptedException {
    return (100.0f / lines.size() * currentLine) / 100.0f;
}

@Override
public void close() throws IOException {

    // If done close the doc
    if (doc != null) {
        doc.close();
    }

}

希望这可以帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

pdf

Hadoop

hadoopyarn

如何在MapReduce程序中解析PDF文件？的相关文章

如何在 Java 中验证从 Azure AD B2C 生成的 JWT 令牌？

我正在寻找 Java 代码示例来验证 Azure AD B2C 令牌我们可以使用哪些依赖项所有 JWT 令牌的 JWT 令牌验证步骤或代码是否相同还是会有所不同我们的项目中没有使用 Spring Security 有大量的图书馆her
我们可以在java中放弃已经签名的jar吗？

I ve a jar文件具有旧签名并希望使用新签名重新签名是否可以如果可能的话怎么做如果签名不是您拥有的您需要先解压 jar 像这样假设是unix 否则翻译成dos jar xvf JarName jar rm rf META
Java 8 中异常类型推断的一个独特功能

在为该网站上的另一个答案编写代码时我遇到了这个特性 static void testSneaky final Exception e new Exception sneakyThrow e no problems here nonSnea
视频文件转换/转码 Google App Engine

我想启动一个云计算项目其简单任务是接收上传的视频文件对它们进行一些转码转换允许用户下载流式传输生成的文件我刚在想ffmpeg作为集成在的外部命令行工具Java Google App engine Application 由于很
打印数组时出错

我得到这个代码 import java util import java io public class Oblig3A public static void main String args OrdAnalyse O new OrdAna
外部化 Spring Security 配置？

我有一个 Web 应用程序可以使用 Spring Security 的几种不同配置但是这些差异配置都是在我的 applicationContext 配置文件中设置的因此为了在客户站点调整这些内容必须在 WAR 文件内修改这些内容
在Java中读取制表符分隔的文件

我有以下代码来读取 Java 中的制表符分隔文件 while str in readLine null if str trim length 0 continue String values str split t System out p
Poi：从 xlsm 打开 Excel 文件后将其保存为 xlsx

我正在编写一个java程序它打开一个用户定义的excel文件用数据填充它然后将其保存在用户指定的路径文件名和扩展名下即使输入文件是 xlsm 也应该可以声明输出保存为 xlsx 但实际上是不可能的如果我尝试使用下面的代码打开文
Java 7 中新的 JNLP 缺少项目警告是怎么回事？

从 Java 6 切换到 Java 7 后我的 JNLP 仍然工作正常但它现在抛出一系列如下错误 Missing Application Name manifest attribute for http blah com app jar
使用嵌入式 Jetty 7 发布 JAX-WS 端点

有人可以帮忙吗我想使用嵌入式 Jetty 7 作为端点这是我尝试过的 public class MiniTestJetty WebService targetNamespace http public static class Calc
如何在 Java 中读取/转换 InputStream 为字符串？

如果你有一个java io InputStream对象您应该如何处理该对象并生成一个String 假设我有一个InputStream包含文本数据我想将其转换为String 例如我可以将其写入日志文件最简单的方法是什么InputStre
什么会导致“IO错误java.net.SocketException：选择失败”？

我的笔记本电脑上运行一个服务器程序相同的路由器和相同的代码它工作正常客户端可以连接然而当我将工作区复制到我的电脑并运行它时我得到了这样的废话 IO错误java net SocketException 选择失败这是代码 publ
Spring portlet mvc：@Valid 似乎不起作用

我创建了一个 bean 类并在我的控制器中使用它但它似乎不起作用也就是说即使我输入了无效的年龄 result hasErrors仍然是假的豆类 public class User Min 13 private int age pri
我有什么理由应该嘲笑？

我也是 Mockito 和 PowerMockito 的新手我发现我无法使用纯 Mockito 测试静态方法因此我需要使用 PowerMockito 对吗我有一个非常简单的类名为 Validate 使用这个非常简单的方法 publi
如何将 .txt 文件的最后 5 行读入 java

我有一个包含多个条目的文本文件例如 hello there my name is JoeBloggs 我如何按降序阅读最后五个条目即来自 JoeBloggs 那里我目前有代码只能读取最后一行 public class TestLast
当 javadoc 未附加到依赖项时，如何将 javadoc 引用到 Maven 的 eclipse 插件中的依赖项

我在开发中使用 Eclipse Maven 和 Java 我使用 Maven 下载依赖项 jar 文件和 javadoc 如果可用并使用 Maven 的 eclipse 插件为 Eclipse 生成 project 和 classpath
如何在 iText 7 中创建页面大小不等的文档

如何在 iText 7 中创建页面大小不等的文档 iText7 可以吗在iText5中我使用document setPageSize and document newPage 如果您通过高级 API 添加内容 Document add
java中从视频中提取图像

我想知道如何使用 JMF 从视频中提取图像 Player player Manager createRealizedPlayer cdi getLocator player start FrameGrabbingControl frameG
在Java中，为什么某些变量首先需要初始化，而其他变量只需要声明？

我试图更深入地理解我是否遗漏了一些关于 Java 何时需要变量初始化与简单声明的理解在以下代码中不需要为变量 row 赋值即可编译和运行但变量 column 则需要赋值注意该程序没有任何用处它已被修剪为仅显示此问题所需的内容以
将Json字符串映射到java中的map或hashmap字段

假设我从服务器返回了以下 JSON 字符串 response imageInstances one id 1 url ONE two id 2 url TWO 杰克逊代码大厦 JsonProperty 我怎样才能得到HashMap对象出来了

随机推荐

通过添加 List() 和另一个模型类来执行迁移

我有以下型号 class Area Object Specify properties to ignore Realm won t persist these override static func ignoredProperties g
如何强制表格单元格内容换行？

这是整个页面 wrappable 在 main css 文件中定义 Wrappable cell Add this class to make sure the text in a cell will wrap By default dat
用其复选框包装一些输入并发送到数据库

重点是如何选择与选中的复选框同一行中的所有输入元素 MARK NAME QUANTITY PRICE inputForName1 inputForQuantity1 inputForPrice1
按短语列表过滤 pandas 列

我有一串叙述专栏每个叙述基本上都是一篇文章我想获取存在某些短语的 df 的子集当前的方法没有按预期工作我正在过滤不完全包含该短语或仅包含该短语的子集的行我尝试过以下方法 phrase went to the store to bu
多线程应用程序中的静态计数器线程安全吗？

public class counting private static int counter 0 public void boolean counterCheck counter if counter 10 counter 0 方法 c
基于 Altair 中的 alt.Color 字段排序

我正在尝试根据水平条形图所属的组对其进行排序我已经包含了数据框我认为可以进行分组排序的代码和图像该图表目前是根据物种列按字母顺序排序的但我希望它按组排序以便所有坏都在一起同样所有好都在一起理想情况下我想更进一步以
Symfony：PHP 致命错误：允许的内存大小

我尝试运行此命令在我的 symfony 项目 1 4 中构建模型 php symfony propel build model or all 我有这个错误 PHP Fatal error Allowed memory size of 335
关于刷新令牌的一些问题

当我使用 jsonwebtokens 时我对刷新令牌的使用和或背后的原因有一些疑问更令人困惑首先为什么需要它我完全理解用于获取新访问令牌的短期访问令牌和长期刷新令牌的全部内容但我觉得这使得刷新令牌同样容易受到攻击甚至可能比普
如何使用 Parcel 从 @font-face 加载字体？

我正在使用 Parcel 进行捆绑并且我想将自定义字体包含到我的项目中在我的 SCSS 中 font face font family Storytella src url fonts Storytella otf format otf
Neo4j 嵌入式数据库在应用程序异常终止后挂起

我打算公开我的第一个基于 Neo4j 嵌入式数据库的应用程序但遇到了严重的阻塞问题这是我之前遇到的数据库删除问题有效清理Neo4j数据库 I use OS Windows 8 1 jdk1 8 0 51 neo4j version 2
mysqli_affected_rows 和 mysqli_num_rows 有什么区别？

The mysqli num rows 的 PHP 文档 says 返回结果集中的行数 The mysqli affected rows 的 PHP 文档 says 返回受最后一个 INSERT UPDATE REPLACE 或 DELET
如何在 MVC3 中的 JQuery ajax 调用上重定向到新页面（以及模型）

我忘记了密码页面用户在其中输入用户名并单击验证按钮来检查他所在的组根据组我们需要显示不同的部分视图现在假设它是电话号码这一页填写有效信息后如果成功我将重定向到一个新页面他将在其中更新他的密码如果失败我需要显示错误消
新值仅在 sendAsynchronousRequest 中可用 - Swift

var arrayData String let bodyData parameter test let URL NSURL NSURL string Link to php file let request NSMutableURLReq
表达式树 lambda 不能包含 null 传播运算符

线路price co price 0 下面的代码给了我上面的错误但是如果我删除 from co 效果很好我试图跟随这个 MSDN 示例他们在哪里使用在线的select new person FirstName PetName subp
自（iOS 7 发布）以来，有没有办法在 PC/Mac 上无需使用 iTunes 即可获取 UDID？

我正在为我的公司开发一款应用程序我们正在经历通过将人们的 iPad 添加到公司的 iOS 开发中心帐户来慢慢让人们进入测试版的过程从那里我们为本地 Intranet 分发进行临时构建在我的最后一次演出中我会引导人们使用其中一个
在 R 中更新数据集的最快方法是什么？

我有一个 20000 5 的数据集目前它正在以迭代方式进行处理并且数据集在每次迭代中不断更新 data frame 中的单元格每次迭代都会更新并寻求一些帮助来更快地运行这些东西由于这是一个小的 data frame 我不确定 dat
基准测试：同一过程多次，只有一次预热？

我目前正在开发一个 Java 应用程序基准其目的是测量与数据库相关的某些进程我的应用程序应该运行以下内容我有几个用例数据库中的简单插入简单更新等我想多次运行运行之间的唯一区别是同时运行的线程数我需要使用 1 2 4 8 1
如何使用外部库并将其与 Contiki 应用程序一起编译

我希望能够连接一些传感器并使用 Contiki OS 将传感器数据发送到 Thingspeak 云 C 库可用于连接传感器 libthingspeak 库可用于更新 Thingspeak 上的源我能够使用 example udp ipv6
使用跟踪侦听器将调试输出重定向到文件时出现问题

我创建了一个调试侦听器使用以下代码将输出从调试控制台窗口重定向到文件带有调用堆栈 void SomeMethod Create a file for output txt Stream debugFile File Create fi
如何在MapReduce程序中解析PDF文件？

我想在我的 hadoop 2 2 0 程序中解析 PDF 文件我发现this 按照它所说的到现在为止我有这三个课程 PDFWordCount 包含map和reduce函数的主类就像原生 hadoop 字数统计样本但代替TextInp

如何在MapReduce程序中解析PDF文件？

如何在MapReduce程序中解析PDF文件？ 的相关文章

随机推荐

热门标签

如何在MapReduce程序中解析PDF文件？的相关文章