Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark 作业失败,因为 HDFS 正在缓存 jar
我将 Scala Spark jar 上传到 HDFS 以在我们的集群上测试它们 跑步后 我经常意识到需要做出改变 因此 我在本地进行更改 然后将新 jar 推送回 HDFS 然而 经常 并非总是 当我这样做时 hadoop 会抛出一个错误
Hadoop
apachespark
HDFS
如何将数据从一个HDFS复制到另一个HDFS?
我有两个 HDFS 设置 想要将一些表从 HDFS1 复制 而不是迁移或移动 到 HDFS2 如何将数据从一个HDFS复制到另一个HDFS 是否可以通过 Sqoop 或其他命令行 DistCp 分布式复制 是用于在集群之间复制数据的工具 它
Hadoop
HDFS
Bigdata
SQOOP
Hadoop:生成 SequenceFile 的示例过程,其中包含要在 map/reduce 中处理的图像二进制文件
下列的Hadoop 如何访问 许多 照片图像以进行map reduce处理 https stackoverflow com questions 8752772 hadoop how to access many photo images t
Hadoop
MapReduce
HDFS
关于 LoadFunc 的示例和更多说明
在哪里可以找到有关 LoadFunc 的更多信息 示例 除了http web archive org web 20130701024312 http ofps oreilly com titles 9781449302641 load an
Hadoop
apachepig
HDFS
Spark迭代HDFS目录
我在 HDFS 上有一个目录 我想迭代这些目录 有没有简单的方法可以使用 SparkContext 对象对 Spark 执行此操作 您可以使用org apache hadoop fs FileSystem https hadoop apac
Hadoop
HDFS
apachespark
按 Spark 键写入多个输出 - 一个 Spark 作业
如何在单个作业中使用 Spark 写入依赖于密钥的多个输出 有关的 按键写入多个输出 Scalding Hadoop 一个 MapReduce 作业 https stackoverflow com questions 23994383 wr
scala
Hadoop
output
HDFS
apachespark
在 AWS 上使用 Apache-Spark 加载数据
我正在 Amazon Web Service AWS EC2 上使用 Apache Spark 来加载和处理数据 我创建了一个主节点和两个从节点 在主节点上 我有一个目录data包含所有要处理的csv格式的数据文件 现在 在我们提交驱动程序
amazonwebservices
amazonec2
apachespark
filesystems
HDFS
客户端机器上的hadoop api配置
超级菜鸟 我有一台带有 cdh3u1 伪发行版的服务器计算机 以及一台带有使用 cdh3u1 API 的 java 应用程序的客户端计算机 如何配置客户端与服务器通信 我已经搜索了几个小时 但找不到 客户端配置 文件在哪里 对我来说 hdf
Hadoop
HDFS
HDFS如何管理块大小?
我的文件大小为 65MB 默认 hdfs 块大小 64MB 那么将分配多少个 64MB 块给我的文件 是 1 64MB 块 1 1MB 块还是 2 64MB 块 如果是 2 64MB 块 剩下的 63MB 会被浪费还是会分配给其他文件 块大
Hadoop
HDFS
Hive 将 ORC 文件分割成小部分
create table n data MARKET string CATEGORY string D map
hive
HDFS
使用 s3distcp 将文件从 amazon s3 复制到 hdfs 失败
我正在尝试使用 EMR 中的工作流程将文件从 s3 复制到 hdfs 当我运行以下命令时 作业流程成功启动 但在尝试将文件复制到 HDFS 时出现错误 我是否需要设置任何输入文件权限 Command elastic mapreduce jo
Hadoop
amazons3
HDFS
elasticmapreduce
在接收器发生故障后,如何强制 Flume-NG 处理积压的事件?
我正在尝试设置 Flume NG 从一组服务器 主要运行 Tomcat 实例和 Apache Httpd 收集各种日志 并将它们转储到 5 节点 Hadoop 集群上的 HDFS 中 设置如下所示 每个应用程序服务器将相关日志跟踪到一个执行
Hadoop
HDFS
flume
为什么 Impala 花费大量时间打开 HDFS 文件(TotalRawHdfsOpenFileTime)?
我发现我的Impala swarm表现不稳定 正常情况下只需要几秒 不到10s 就可以完成一个查询 但偶尔会需要40s以上 而且这种情况会持续几分钟 当偏偏 根据配置文件 TotalRawHdfsOpenFileTime 非常高 这意味着大
HDFS
OLAP
impala
namenode
从java获取HDFS的文件夹大小
我必须确定 HDFS 文件夹的大小 其中包含来自 java 的子目录 从命令行我们可以使用 dus 选项 但是任何人都可以帮助我如何使用 java 获得相同的选项 The getSpaceConsumed 函数在ContentSummary
HDFS
使用 Pandas 提高大型 HDFStore 表的查询性能
我有一个大型 约 1 6 亿行 数据框 我已将其存储到磁盘中 如下所示 def fillStore store tablename files glob glob 201312 csv names ts c id f id resp id
python
pandas
HDFS
largedata
如何将pyspark数据帧写入HDFS,然后如何将其读回数据帧?
我有一个非常大的 pyspark 数据框 所以我想对其子集进行预处理 然后将它们存储到hdfs 后来我想把它们全部读完并合并在一起 谢谢 将 DataFrame 写入 HDFS Spark 1 6 df write save target
python
Hadoop
PySpark
HDFS
apachesparksql
Spark数据集写入的区别
我在用着Spark Java 我需要知道以下写入 Hadoop 方法之间是否有任何差异 性能等 ds write mode mode format orc save path Or ds write mode mode orc path T
apachespark
Hadoop
HDFS
hadoop fs -put 和 hadoop fs -copyFromLocal 之间的区别
put and copyFromLocal被记录为相同的 而大多数示例使用详细变体 copyFromLocal 为什么 同样的事情 get and copyToLocal copyFromLocal类似于 put命令 除了源是仅限于本地文件
Hadoop
HDFS
Systemd Hdfs 服务 [hadoop] - 启动
我创建了一个服务来启动和停止与我的 Spark 集群关联的 hdfs 服务 Unit Description Hdfs service Service Type simple WorkingDirectory home hduser Exe
Hadoop
HDFS
systemd
Spark Streaming - java.io.IOException:租赁超时 0 秒已过期
我有 Spark Streaming 应用程序 使用 HDFS 上的检查点写入 有谁知道解决方案吗 之前我们使用 kinit 来指定主体和密钥表 并得到了通过以下方式指定这些的建议spark submit命令代替kinit但仍然出现此错误并
apachespark
HDFS
SparkStreaming
kerberos
Cloudera
«
1 ...
3
4
5
6
7
8
9
...21
»