Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 Hadoop 中按文件中的值排序
我有一个文件 其中每行包含一个字符串 然后是一个空格 然后是一个数字 例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序 然后将结果放入文件中 为数字分配排名 所以我的输出应该
Java
Hadoop
hadoopstreaming
使用 Apache Pig 的数据透视表
我想知道是否可以在 Apache Pig 中一次性旋转一张表 Input Id Column1 Column2 Column3 1 Row11 Row12 Row13 2 Row21 Row22 Row23 Output Id Name V
apachepig
hadoopstreaming
Amazon MapReduce 日志分析最佳实践
我正在解析 Apache Nginx Darwin 视频流服务器 生成的访问日志 并按日期 引用者 用户代理聚合每个交付文件的统计信息 每小时都会生成大量日志 而且这个数字在不久的将来可能会急剧增加 因此通过 Amazon Elastic
Hadoop
logging
amazons3
amazonemr
hadoopstreaming
hdfs 命令在 hadoop 中已弃用
我正在关注这个程序 http www codeproject com Articles 757934 Apache Hadoop for Windows Platform YouTube 链接 https www youtube com w
Java
Hadoop
hadoopstreaming
Hadoop2
hadoopplugins
在spark中连接mongodb时出现异常
在尝试使用 MongoDB 作为输入 RDD 时 我在 org bson BasicBSONDecoder decode 中收到 java lang IllegalStateException 未就绪 Configuration conf
MongoDB
Exception
Hadoop
apachespark
hadoopstreaming
使用 python 的 CentOS 上的 Hadoop 流示例 - /mapred/local/taskTracker 上的权限被拒绝
我已经能够使用 python 映射器和减速器设置流示例 mapred文件夹位置是 mapred local taskTracker root 和 mapred 用户都拥有此文件夹和子文件夹的所有权 但是 当我运行流式传输时 它会创建地图但不
Hadoop
hadoopstreaming
wordCounts.dstream().saveAsTextFiles("本地文件系统路径", "txt");不写入文件
我正在尝试将 JavaPairRDD 写入本地系统中的文件中 代码如下 JavaPairDStream
apachespark
Streaming
PySpark
SparkStreaming
hadoopstreaming
Hadoop Java 错误:线程“main”java.lang.NoClassDefFoundError 中出现异常:WordCount(名称错误:org/myorg/WordCount)
我是 hadoop 新手 我按照 maichel noll 教程在单节点中设置 hadoop 我尝试运行 WordCount 程序 这是我使用的代码 import java io IOException import java util S
Java
Hadoop
jar
hadoopstreaming
AWS Elastic mapreduce 似乎没有正确地将流媒体转换为 jar
我有一个映射器和减速器 当我在管道版本中运行它们时 它们可以正常工作 cat data csv mapper py sort k1 1 reducer py 我使用了弹性mapreducer向导 加载了输入 输出 引导程序等 引导程序成功
python
Hadoop
amazonwebservices
hadoopstreaming
elasticmapreduce
使用带有子进程、Pipe、Popen 的 python 从 hdfs 读取/写入文件会出现错误
我正在尝试在 python 脚本内读取 打开 和写入 hdfs 中的文件 但有错误 有人可以告诉我这里出了什么问题吗 代码 完整 sample py usr bin python from subprocess import Popen P
python
Hadoop
HDFS
popen
hadoopstreaming
Hadoop - 全局排序平均值以及 MapReduce 中何时发生
我在用Hadoop 流 JAR for 字数 我想知道我怎样才能得到全局排序 根据SO中另一个问题的回答 我发现当我们使用只需一台减速机我们可以得到全局排序 但在我的结果中numReduceTasks 1 一个减速器 它不是排序的 例如 我
Sorting
MapReduce
Hadoop2
reduce
hadoopstreaming
安排 Amazon Elastic MapReduce 作业的工具/方法
我使用 EMR 创建新实例并处理作业 然后关闭实例 我的要求是定期安排工作 一种简单的实施方式是使用石英来触发 EMR 作业 但从长远来看 我对使用开箱即用的 MapReduce 调度解决方案感兴趣 我的问题是 EMR 或 AWS SDK
MapReduce
hadoopstreaming
elasticmapreduce
EMR
启动 hadoop 流作业的替代方法
我可以从终端成功启动 hadoop 流作业 但我正在寻找通过 api eclipse 或其他方式启动流作业的方法 我发现的最接近的是这篇文章https stackoverflow com questions 11564463 remotel
Hadoop
hadoopstreaming
如何在 Hadoop 中访问和操作 pdf 文件的数据?
我想使用hadoop读取PDF文件 这怎么可能 我只知道hadoop只能处理txt文件 那么有没有办法将PDF文件解析为txt 给我一些建议 一个简单的方法是创建一个序列文件 http hadoop apache org common do
Hadoop
hadoopstreaming
hadoopplugins
hadoopy
在python中分隔克拉A
我有以下形式的数据 37101000ssd48800 A1420asd938987 A2011 09 10 A18 47 50 000 A99 00 A1 A0 A 37101000sd48801 A44557asd03082 A2011
python
Hadoop
hadoopstreaming
Hadoop 流命令失败并出现 Python 错误
我是 Ubuntu Hadoop 和 DFS 的新手 但我已经按照 Michael Noll com 上发布的说明成功在本地 ubuntu 计算机上安装了单节点 hadoop 实例 http www michael noll com tut
python
Hadoop
hadoopstreaming
如何从 R 中的流式 MapReduce 作业获取文件名?
我正在流式处理 R mapreduce 作业 并且需要获取文件名 我知道 Hadoop 在当前作业启动之前设置环境变量 并且我可以使用 Sys getenv 访问 R 中的环境变量 我发现 获取流式hadoop程序中的输入文件名 和 Sys
r
Hadoop
environmentvariables
filenames
hadoopstreaming
未生成 Hadoop 流映射器字节偏移量
我正在运行流式 Hadoop 作业 并且字节偏移量不会作为映射器的输出 键 生成 就像我所期望的那样 命令 HADOOP INSTALL bin hadoop jar HADOOP INSTALL contrib streaming had
python
Hadoop
MapReduce
hadoopstreaming
mapper
Python Hadoop 流错误“ERROR Streaming.StreamJob:作业未成功!”和堆栈跟踪:ExitCodeException exitCode=134
我正在尝试使用 Hadoop Streaming 在 Hadoop 集群上运行 python 脚本进行情感分析 我在本地计算机上运行的相同脚本运行正常并给出输出 要在本地计算机上运行 我使用此命令 cat home MB analytics
python
Hadoop
MapReduce
subprocess
hadoopstreaming
使用hadoop流解压文件
我在 HDFS 中有很多文件 所有这些文件都是一个 zip 文件 其中包含一个 CSV 文件 我正在尝试解压缩这些文件 以便可以对它们运行流作业 I tried hadoop jar usr lib hadoop mapreduce had
Hadoop
zip
hadoopstreaming
1
2
»