Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何将位于 HDFS 上的类型安全配置文件添加到 Spark-Submit(集群模式)?
我有一个 Spark Spark 1 5 2 应用程序 它将数据从 Kafka 流式传输到 HDFS 我的应用程序包含两个 Typesafe 配置文件来配置某些内容 例如 Kafka 主题等 现在我想在集群中使用spark submit 集
Hadoop
apachespark
HDFS
typesafe
如何访问Hadoop HDFS中的文件?
我的 Hadoop HDFS 中有一个 jar 文件 包含我想要修改的 Java 项目 我想在 Eclipse 中打开它 当我打字时hdfs dfs ls user 我可以看到 jar 文件在那里 但是 当我打开 Eclipse 并尝试导入
Linux
eclipse
Hadoop
HDFS
访问 HDFS 中文件的 URI
我已经使用 Ambari 设置了一个包含 3 个节点的集群 现在我想使用客户端应用程序访问 HDFS 中的文件 我可以在 Ambari 的数据节点下找到所有节点 URI 我需要使用什么 URI 端口来访问文件 我使用的是默认安装过程 默认端
HDFS
ambari
将文件从 HDFS 复制到本地计算机
我在尝试将文件从 HDFS 文件系统 下载 到本地系统时遇到问题 即使相反的操作没有问题 注意 文件存在于 HDFS 文件系统的指定路径上 这是一个代码片段 Configuration conf new Configuration conf
Java
Hadoop
HDFS
如何更改 Spark 程序的 HDFS 复制因子?
我需要将 Spark 程序的 HDFS 复制因子从 3 更改为 1 在搜索时 我想出了 spark hadoop dfs replication 属性 但是通过查看https spark apache org docs latest con
scala
Hadoop
apachespark
HDFS
gzip 文件如何存储在 HDFS 中
HDFS存储支持压缩格式来存储压缩文件 我知道 gzip 压缩不支持夹板 现在假设该文件是一个 gzip 压缩文件 其压缩大小为 1 GB 现在我的问题是 该文件将如何存储在 HDFS 中 块大小为 64MB 由此link http com
Algorithm
Hadoop
Compression
HDFS
gzip
格式化 HDFS 时出现 UnknownHostException
我已经使用以下命令在伪分布式模式下在 CentOS 6 3 64 位上安装了 CDH4指示 https ccp cloudera com display CDH4DOC Installing CDH4 on a Single Linux N
Exception
Hadoop
HDFS
hadoop/hdfs/name 处于不一致状态:存储目录(hadoop/hdfs/data/)不存在或不可访问
我已经尝试了 stackoverflow 上提供的有关此主题的所有不同解决方案 但没有帮助 再次询问具体的日志和详细信息 任何帮助表示赞赏 我的 Hadoop 集群中有 1 个主节点和 5 个从节点 ubuntu用户和ubuntu组是所有者
Hadoop
HDFS
Nodes
如何使用pyspark从HDFS读取docx/pdf文件?
我想使用 pyspark 从 Hadoop 文件系统读取 DOCX PDF 文件 目前我正在使用 pandas API 但在 pandas 中我们有一些限制 我们只能读取 CSV JSON XLSX 和 HDF5 它不支持任何其他格式 目前
python
pandas
DataFrame
PySpark
HDFS
HDFS如何计算可用块?
假设块大小为 128MB 则集群有 10GB 因此大约 80 个可用块 假设我创建了 10 个小文件 这些文件总共占用磁盘上 128MB 块文件 校验和 复制 和 10 个 HDFS 块 如果我想向HDFS添加另一个小文件 那么HDFS使用
Hadoop
HDFS
无法创建目录 /home/hadoop/hadoopinfra/hdfs/namenode/current
我收到错误 Cannot create directory home hadoop hadoopinfra hdfs namenode current 尝试在我的本地 Mac 上安装 hadoop 时 这可能是什么原因 仅供参考 我将我的
Hadoop
HDFS
如何更有效地从spark重命名hdfs中的文件?
我有 450K JSON 我想根据某些规则在 hdfs 中重命名它们 为了简单起见 我只添加一个后缀 finished给他们每个人 A 成功地做到了这一点 代码如下 import org apache hadoop fs val hdfs
scala
apachespark
HDFS
Namenode-HDFS 出现“连接被拒绝”错误(Hadoop 问题)
当我们看到使用时 我的所有节点都已启动并运行jps命令 但我仍然无法连接到 hdfs 文件系统 每当我点击Browse the filesystem在 Hadoop Namenode localhost 8020 页面上 我得到的错误是Co
Hadoop
HDFS
WEBHDFS REST API 将文件从 Windows 服务器/本地文件夹/桌面复制/移动到 HDFS
使用 WEBHDFS REST API 调用 我可以将文件从 Windows 计算机 即 Windows 服务器或 Windows 本地文件夹或桌面 传输或复制到 Hadoop HDFS 文件系统吗 如果是 有任何示例命令信息吗 我已经尝试
cURL
HDFS
Hadoop2
jirarestapi
webhdfs
是否可以将 Flume 标头写入 HDFS 接收器并删除主体?
text with headers 序列化器 HDFS 接收器序列化器 允许保存 Flume 事件标头而不是丢弃它们 输出格式由标头 后跟空格和正文有效负载组成 我们想删除正文并仅保留标题 对于 HBase 接收器 RegexHbaseEv
HDFS
flume
serialization
flumeng
sink
HDFS 复制因子更改
如果集群中的复制因子发生变化 例如从 5 更改为 3 并且集群重新启动 旧文件块会发生什么情况 它们是否会被视为过度复制并被删除 或者复制因子仅适用于新文件 这意味着旧文件块被复制 5 次 新文件块 重新启动后 被复制 3 次 如果集群不重
HDFS
如何将 RDD 保存到 HDFS 中并稍后将其读回?
我有一个 RDD 其元素类型为 Long String 由于某种原因 我想将整个 RDD 保存到 HDFS 中 然后在 Spark 程序中读回该 RDD 可以这样做吗 如果是这样 怎么办 有可能的 在RDD中你有saveAsObjectFi
scala
apachespark
HDFS
RDD
Bigdata
HDFS 作为 cloudera 快速入门 docker 中的卷
我对 hadoop 和 docker 都很陌生 我一直致力于扩展 cloudera quickstart docker 镜像 docker 文件 并希望从主机挂载一个目录并将其映射到 hdfs 位置 以便提高性能并将数据保存在本地 当我在任
Hadoop
Docker
HDFS
Cloudera
Bigdata
从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧
我在 Ambari 上使用 Spark 2 1 1 和 hadoop 2 6 时遇到问题 我首先在本地计算机上测试了我的代码 单节点 本地文件 一切都按预期工作 from pyspark sql import SparkSession sp
Hadoop
apachespark
PySpark
HDFS
hadoopyarn
Hadoop - 重新启动数据节点和任务跟踪器
我想关闭单个数据节点和任务跟踪器 以便我在mapred site xml中所做的一些新更改生效 例如mapred reduce child java opts等 我该怎么做 但是 我不想关闭整个集群 因为我有正在运行的活动作业 另外 如何确
Hadoop
HDFS
«
1
2
3
4
5
6
...21
»