我想使用hadoop读取PDF文件,这怎么可能?
我只知道hadoop只能处理txt文件,那么有没有办法将PDF文件解析为txt。
给我一些建议。
一个简单的方法是创建一个序列文件 http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html包含 PDF 文件。 SequenceFile 是一种二进制文件格式。您可以将 SequenceFile 中的每条记录制作为 PDF。为此,您将创建一个派生自的类Writable http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/Writable.html其中将包含 PDF 和您需要的任何元数据。然后你可以使用任何java PDF库,例如PDFBox http://pdfbox.apache.org/来操作 PDF。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)