hadoopy

如何在 Hadoop 中访问和操作 pdf 文件的数据？

我想使用hadoop读取PDF文件这怎么可能我只知道hadoop只能处理txt文件那么有没有办法将PDF文件解析为txt 给我一些建议一个简单的方法是创建一个序列文件 http hadoop apache org common do

Hadoop hadoopstreaming hadoopplugins hadoopy