Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
无法使用 PDI 步骤连接到 HDFS
我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常 而且我还可以从 Windows 浏览器查看 Namenode 附图如下 所以 我的主机名是 ubu
Hadoop
HDFS
pentaho
dataintegration
Cat 文件与 HDFS 中的模式不匹配?
我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件 编辑 抱歉 但我需要在 Hadoop 中管理文件 显然 hdfs 附带的命令非常少 编辑2 所有文
Hadoop
HDFS
远程执行hadoop作业时出现异常
我正在尝试在远程 hadoop 集群上执行 Hadoop 作业 下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Hadoop
MapReduce
HDFS
如何为 HDFS 递归列出子目录?
我在 HDFS 中递归创建了一组目录 如何列出所有目录 对于普通的 UNIX 文件系统 我可以使用以下命令来做到这一点 find path type d print 但我想为 HDFS 得到类似的东西 递归列出目录内容hadoop dfs
list
Hadoop
find
HDFS
HDFS 在大量小文件和 128 Mb 块大小上的行为
我有很多 多达数十万个 小文件 每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗 我见过相当矛盾的答案 答案说最小的文件占用整个块 https stac
Hadoop
HDFS
如何在linux中的hdfs超级组中添加用户? [关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我正在研究 hdfs 然后我发现某些内容没有为超级用户执行权限检查 如果我的 linux 用户是 sandy 并且我想将 sandy 添加
Linux
Hadoop
HDFS
如何将 Jar 文件传递到 OOZIE shell 节点中的 shell 脚本
您好 我在 oozie shell 操作工作流程中执行的脚本中运行 java 程序时遇到以下错误 Stdoutput 2015 08 25 03 36 02 636 INFO pool 1 thread 1 ProcessExecute j
Java
shell
Hadoop
HDFS
oozie
HBase如何实现对HDFS的随机访问?
鉴于HBase是一个数据库 其文件存储在HDFS中 那么它如何实现对HDFS中单个数据的随机访问呢 这是通过什么方法实现的呢 From Apache HBase 参考指南 http hbase apache org book archite
Hadoop
Hbase
HDFS
使用 FSDataOutputStream 将不需要的字符从 java REST-API 写入 HadoopDFS
我们构建了一个 java REST API 来接收事件数据 例如单击购买按钮 并将该数据写入 HDFS 本质上 我们为发送数据 以 JSON 形式 的每个主机打开流 或者使用现有的流 使用时间戳 事件名称和主机名丰富数据 并将其写入 FS
Java
specialcharacters
HDFS
DataOutputStream
使用 PySpark 在 HDFS 中保存并附加文件
我在 PySpark 中有一个名为df 我已经注册了这个df as a temptable像下面这样 df registerTempTable mytempTable date datetime now strftime Y m d H M
apachespark
PySpark
apachesparksql
HDFS
Spark 作业在 YARN 模式下失败
我有一个用 Scala 编写的 Spark 程序 它从 HDFS 读取 CSV 文件 计算新列并将其保存为 parquet 文件 我正在 YARN 集群中运行该程序 但每次我尝试启动它时 执行程序都会在某个时候失败并出现此错误 您能帮我找出
scala
Hadoop
apachespark
HDFS
hadoopyarn
Hadoop 顺序数据访问
根据 Hadoop 权威指南 HDFS 是一个文件系统 设计用于存储非常大的文件 流式或顺序数据访问模式 什么是流式或顺序数据访问 它如何减少磁盘的寻道时间 这并不是 Hadoop 特有的 顺序访问模式是指按顺序读取数据 通常是从开始到结束
Hadoop
HDFS
hadoop 连接在端口 9000 上被拒绝
我想设置一个伪分布式模式的hadoop集群进行开发 由于端口 9000 上的连接被拒绝 尝试启动 hadoop 集群失败 这些是我的配置 非常标准 站点核心 xml
Java
Ubuntu
Hadoop
HDFS
为什么map任务总是运行在单节点上
我有一个具有 4 个节点的完全分布式 Hadoop 集群 当我将作业提交给 Jobtracker 时 Jobtracker 认为 12 个映射任务对我的工作来说很酷 但奇怪的事情发生了 这 12 个映射任务始终在单个节点上运行 而不是在整个
Hadoop
MapReduce
HDFS
如何从java通过hdfs协议访问hadoop?
我找到了一种通过以下方式连接到hadoop的方法hftp 并且工作正常 只读 uri hftp 172 16 xxx xxx 50070 System out println uri uri Configuration conf new C
SSH
Hadoop
HDFS
如何将位于 HDFS 上的类型安全配置文件添加到 Spark-Submit(集群模式)?
我有一个 Spark Spark 1 5 2 应用程序 它将数据从 Kafka 流式传输到 HDFS 我的应用程序包含两个 Typesafe 配置文件来配置某些内容 例如 Kafka 主题等 现在我想在集群中使用spark submit 集
Hadoop
apachespark
HDFS
typesafe
如何访问Hadoop HDFS中的文件?
我的 Hadoop HDFS 中有一个 jar 文件 包含我想要修改的 Java 项目 我想在 Eclipse 中打开它 当我打字时hdfs dfs ls user 我可以看到 jar 文件在那里 但是 当我打开 Eclipse 并尝试导入
Linux
eclipse
Hadoop
HDFS
访问 HDFS 中文件的 URI
我已经使用 Ambari 设置了一个包含 3 个节点的集群 现在我想使用客户端应用程序访问 HDFS 中的文件 我可以在 Ambari 的数据节点下找到所有节点 URI 我需要使用什么 URI 端口来访问文件 我使用的是默认安装过程 默认端
HDFS
ambari
将文件从 HDFS 复制到本地计算机
我在尝试将文件从 HDFS 文件系统 下载 到本地系统时遇到问题 即使相反的操作没有问题 注意 文件存在于 HDFS 文件系统的指定路径上 这是一个代码片段 Configuration conf new Configuration conf
Java
Hadoop
HDFS
如何更改 Spark 程序的 HDFS 复制因子?
我需要将 Spark 程序的 HDFS 复制因子从 3 更改为 1 在搜索时 我想出了 spark hadoop dfs replication 属性 但是通过查看https spark apache org docs latest con
scala
Hadoop
apachespark
HDFS
1
2
3
4
5
6
...21
»