hadoopstreaming

在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该

Java Hadoop hadoopstreaming

使用 Apache Pig 的数据透视表

我想知道是否可以在 Apache Pig 中一次性旋转一张表 Input Id Column1 Column2 Column3 1 Row11 Row12 Row13 2 Row21 Row22 Row23 Output Id Name V

apachepig hadoopstreaming

Amazon MapReduce 日志分析最佳实践

我正在解析 Apache Nginx Darwin 视频流服务器生成的访问日志并按日期引用者用户代理聚合每个交付文件的统计信息每小时都会生成大量日志而且这个数字在不久的将来可能会急剧增加因此通过 Amazon Elastic

Hadoop logging amazons3 amazonemr hadoopstreaming

hdfs 命令在 hadoop 中已弃用

我正在关注这个程序 http www codeproject com Articles 757934 Apache Hadoop for Windows Platform YouTube 链接 https www youtube com w

Java Hadoop hadoopstreaming Hadoop2 hadoopplugins

在spark中连接mongodb时出现异常

在尝试使用 MongoDB 作为输入 RDD 时我在 org bson BasicBSONDecoder decode 中收到 java lang IllegalStateException 未就绪 Configuration conf

MongoDB Exception Hadoop apachespark hadoopstreaming

使用 python 的 CentOS 上的 Hadoop 流示例 - /mapred/local/taskTracker 上的权限被拒绝

我已经能够使用 python 映射器和减速器设置流示例 mapred文件夹位置是 mapred local taskTracker root 和 mapred 用户都拥有此文件夹和子文件夹的所有权但是当我运行流式传输时它会创建地图但不

Hadoop hadoopstreaming

wordCounts.dstream().saveAsTextFiles("本地文件系统路径", "txt");不写入文件

我正在尝试将 JavaPairRDD 写入本地系统中的文件中代码如下 JavaPairDStream

apachespark Streaming PySpark SparkStreaming hadoopstreaming

Hadoop Java 错误：线程“main”java.lang.NoClassDefFoundError 中出现异常：WordCount（名称错误：org/myorg/WordCount）

我是 hadoop 新手我按照 maichel noll 教程在单节点中设置 hadoop 我尝试运行 WordCount 程序这是我使用的代码 import java io IOException import java util S

Java Hadoop jar hadoopstreaming

AWS Elastic mapreduce 似乎没有正确地将流媒体转换为 jar

我有一个映射器和减速器当我在管道版本中运行它们时它们可以正常工作 cat data csv mapper py sort k1 1 reducer py 我使用了弹性mapreducer向导加载了输入输出引导程序等引导程序成功

python Hadoop amazonwebservices hadoopstreaming elasticmapreduce

使用带有子进程、Pipe、Popen 的 python 从 hdfs 读取/写入文件会出现错误

我正在尝试在 python 脚本内读取打开和写入 hdfs 中的文件但有错误有人可以告诉我这里出了什么问题吗代码完整 sample py usr bin python from subprocess import Popen P

python Hadoop HDFS popen hadoopstreaming

Hadoop - 全局排序平均值以及 MapReduce 中何时发生

我在用Hadoop 流 JAR for 字数我想知道我怎样才能得到全局排序根据SO中另一个问题的回答我发现当我们使用只需一台减速机我们可以得到全局排序但在我的结果中numReduceTasks 1 一个减速器它不是排序的例如我

Sorting MapReduce Hadoop2 reduce hadoopstreaming

安排 Amazon Elastic MapReduce 作业的工具/方法

我使用 EMR 创建新实例并处理作业然后关闭实例我的要求是定期安排工作一种简单的实施方式是使用石英来触发 EMR 作业但从长远来看我对使用开箱即用的 MapReduce 调度解决方案感兴趣我的问题是 EMR 或 AWS SDK

MapReduce hadoopstreaming elasticmapreduce EMR

启动 hadoop 流作业的替代方法

我可以从终端成功启动 hadoop 流作业但我正在寻找通过 api eclipse 或其他方式启动流作业的方法我发现的最接近的是这篇文章https stackoverflow com questions 11564463 remotel

Hadoop hadoopstreaming

如何在 Hadoop 中访问和操作 pdf 文件的数据？

我想使用hadoop读取PDF文件这怎么可能我只知道hadoop只能处理txt文件那么有没有办法将PDF文件解析为txt 给我一些建议一个简单的方法是创建一个序列文件 http hadoop apache org common do

Hadoop hadoopstreaming hadoopplugins hadoopy

在python中分隔克拉A

我有以下形式的数据 37101000ssd48800 A1420asd938987 A2011 09 10 A18 47 50 000 A99 00 A1 A0 A 37101000sd48801 A44557asd03082 A2011

python Hadoop hadoopstreaming

Hadoop 流命令失败并出现 Python 错误

我是 Ubuntu Hadoop 和 DFS 的新手但我已经按照 Michael Noll com 上发布的说明成功在本地 ubuntu 计算机上安装了单节点 hadoop 实例 http www michael noll com tut

python Hadoop hadoopstreaming

如何从 R 中的流式 MapReduce 作业获取文件名？

我正在流式处理 R mapreduce 作业并且需要获取文件名我知道 Hadoop 在当前作业启动之前设置环境变量并且我可以使用 Sys getenv 访问 R 中的环境变量我发现获取流式hadoop程序中的输入文件名和 Sys

r Hadoop environmentvariables filenames hadoopstreaming

未生成 Hadoop 流映射器字节偏移量

我正在运行流式 Hadoop 作业并且字节偏移量不会作为映射器的输出键生成就像我所期望的那样命令 HADOOP INSTALL bin hadoop jar HADOOP INSTALL contrib streaming had

python Hadoop MapReduce hadoopstreaming mapper

Python Hadoop 流错误“ERROR Streaming.StreamJob：作业未成功！”和堆栈跟踪：ExitCodeException exitCode=134

我正在尝试使用 Hadoop Streaming 在 Hadoop 集群上运行 python 脚本进行情感分析我在本地计算机上运行的相同脚本运行正常并给出输出要在本地计算机上运行我使用此命令 cat home MB analytics

python Hadoop MapReduce subprocess hadoopstreaming

使用hadoop流解压文件

我在 HDFS 中有很多文件所有这些文件都是一个 zip 文件其中包含一个 CSV 文件我正在尝试解压缩这些文件以便可以对它们运行流作业 I tried hadoop jar usr lib hadoop mapreduce had

Hadoop zip hadoopstreaming