Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
更新 hadoop HDFS 文件
我是 Hadoop 的新手 我一直读到 HDFS 主要是 一次写入 多次读取 我有一个用例 我可能需要对 HDFS 中存储的文件进行修改 我一直在研究是否有任何方法可以做到这一点 我的问题是是否可以将 HDFS 文件加载到 HBase 中
Hadoop
HDFS
本文中的“本地数据缓存”是什么意思?
摘自以下正文 http developer yahoo com hadoop tutorial module2 html 它提到顺序可读的大文件不适合本地缓存 但我不明白本地是什么意思 我认为有两个假设 一是Client缓存来自HDFS的数
Hadoop
HDFS
无法启动 CDH4 辅助名称节点:NameNode 地址的 URI 无效
我一直在尝试设置 hadoop 的 CDH4 安装 我有 12 台机器 标记为 hadoop01 hadoop12 名称节点 作业跟踪器和所有数据节点都启动良好 我可以查看 dfshealth jsp 并看到它找到了所有数据节点 但是 每当
Hadoop
HDFS
Cloudera
如何在 Windows 上为 python 3.7 正确设置 pyarrow
我一直在尝试通过 pip 安装 pyarrow pip install pyarrow 并且 正如 Yagav 所建议的 py 3 7 m pip install user pyarrow 和康达 conda install c conda
python
Windows
Hadoop
HDFS
pyarrow
Hadoop - Map-Reduce 任务如何知道要处理文件的哪一部分?
我已经开始学习 hadoop 目前我正在尝试处理结构不太好的日志文件 因为我通常用于 M R 键的值通常位于文件的顶部 一旦 所以基本上我的映射函数将该值作为键 然后扫描文件的其余部分以聚合需要减少的值 因此 假 日志可能如下所示 log
Hadoop
MapReduce
filesystems
block
HDFS
HBase - WAL 和 MemStore 之间有什么区别?
我正在尝试理解HBase建筑学 我可以看到两个不同的术语用于同一目的 Write Ahead Logs and Memstore 两者都用于存储尚未持久化的新数据permanent storage 有什么区别WAL和内存存储 Update
Hadoop
Architecture
Hbase
HDFS
如何在java客户端中获取HDFS服务器元数据信息?
我需要构建一个实用程序类来测试与 HDFS 的连接 测试应显示 HDFS 的服务器端版本和任何其他元数据 虽然有很多可用的客户端演示 但没有关于提取服务器元数据的内容 有人可以帮忙吗 请注意 我的客户端是远程 java 客户端 没有 had
Java
Hadoop
connection
client
HDFS
sqoop导入多个表
我们正在使用 Cloudera CDH 4 并且能够按预期将表从 Oracle 数据库导入到我们的 HDFS 仓库中 问题是我们的数据库中有数十万张表 而 sqoop 一次只支持导入一张表 有哪些选项可用于将多个表导入 HDFS 或 Hiv
Hadoop
hive
HDFS
SQOOP
Hadoop:如何将减速器输出合并到单个文件? [复制]
这个问题在这里已经有答案了 我知道 shell 中的 getmerge 命令可以完成这项工作 但是 如果我想在作业结束后通过 HDFS API for java 合并这些输出 我该怎么办 我真正想要的是 HDFS 上的单个合并文件 我唯一能
Java
Hadoop
MERGE
MapReduce
HDFS
使用 avro-tools 连接 Avro 文件
我正在尝试将 avro 文件合并为一个大文件 问题是concat命令不接受通配符 hadoop jar avro tools jar concat input part output bigfile avro I get 线程 main 中
Hadoop
HDFS
Avro
avrotools
合并hdfs文件
我在 HDFS 中有 1000 多个可用文件 命名约定为1 fileName txt to N fileName txt 每个文件的大小为 1024 MB 我需要将这些文件合并到一个 HDFS 中 并保持文件的顺序 说5 FileName
Hadoop
HDFS
Flume的Spool Dir可以在远程机器上吗?
每当新文件到达特定文件夹时 我就尝试将文件从远程计算机获取到我的 hdfs 我在flume中遇到了spool dir的概念 如果spool dir位于运行flume代理的同一台机器上 那么它工作得很好 有什么方法可以在远程计算机中配置假脱机
Hadoop
HDFS
Bigdata
flume
spool
获取 HDFS 中 parquet 文件的大小,以便在 Scala 中使用 Spark 重新分区
我在 HDFS 上有许多 parquet 文件目录 每个目录包含数千个小 大多数 使用以下代码 我可以将本地镶木地板文件重新分区为更少数量的部分 val pqFile sqlContext read parquet file home ha
scala
Hadoop
apachespark
HDFS
parquet
写入 Hadoop 中 HDFS 中的文件
我一直在寻找一个磁盘密集型 Hadoop 应用程序来测试 Hadoop 中的 I O 活动 但我找不到任何此类应用程序可以使磁盘利用率保持在上述水平 例如 50 或者某些此类应用程序实际上使磁盘保持繁忙 我尝试了 randomwriter
Hadoop
HDFS
wordcount
使用带有子进程、Pipe、Popen 的 python 从 hdfs 读取/写入文件会出现错误
我正在尝试在 python 脚本内读取 打开 和写入 hdfs 中的文件 但有错误 有人可以告诉我这里出了什么问题吗 代码 完整 sample py usr bin python from subprocess import Popen P
python
Hadoop
HDFS
popen
hadoopstreaming
hadoop 空指针异常
我正在尝试设置一个hadoop的多节点集群迈克尔 诺尔的方式 http www michael noll com tutorials running hadoop on ubuntu linux multi node cluster 使用两
Hadoop
NullPointerException
HDFS
Hadoop 如何执行输入拆分?
这是一个涉及Hadoop HDFS的概念问题 假设您有一个包含 10 亿行的文件 为了简单起见 让我们考虑每行的形式
Hadoop
MapReduce
HDFS
如何在两个 MapReduce 作业之间传递变量
我已经链接了两个 Map reduce 作业 Job1 将只有一个减速器 我正在计算一个浮点值 我想在 Job2 的减速器中使用这个值 这是我的主要方法设置 public static String GlobalVriable public
Hadoop
MapReduce
HDFS
Hadoop安装:Namenode无法启动
目前我正在尝试在我的 ubuntu 14 10 32 位 utopic 上安装 hadoop 2 6 0 我按照这里的说明进行操作 http www itzgeek com how tos linux ubuntu how tos inst
Hadoop
HDFS
清除 HDFS 后,某些数据节点仍然显示已使用的块池
Hadoop版本 2 7 3 数据节点 32 区块大小 512m 复制 3 我使用命令清除了HDFS中的所有数据 hdfs dfs rm r 清除HDFS集群后 少数数据节点仍然显示Block pool used 尽管块数为零 The sc
Hadoop
HDFS
hadoop273
«
1
2
3
4
5
6
7
8
...21
»