Hadoop MapReduce 提供嵌套目录作为作业输入

2024-03-27

我正在从事一项处理嵌套目录结构的工作，其中包含多个级别的文件：

one/
├── three/
│   └── four/
│       ├── baz.txt
│       ├── bleh.txt
│       └── foo.txt
└── two/
    ├── bar.txt
    └── gaa.txt

当我添加one/作为输入路径，不会处理任何文件，因为没有文件在根级别立即可用。

我读到job.addInputPathRecursively(..)，但这似乎在最近的版本中已被弃用（我使用的是 hadoop 1.0.2）。我编写了一些代码来遍历文件夹并添加每个目录job.addInputPath(dir)，直到由于某种原因（例如，尝试将目录作为输入文件处理时作业崩溃）为止。 - 尝试去fs.open(split.getPath()), when split.getPath()是一个目录（这发生在LineRecordReader.java).

我试图说服自己必须有一种更简单的方法来提供具有嵌套目录结构的作业。有任何想法吗？

EDIT- 显然有一个open bug https://issues.apache.org/jira/browse/MAPREDUCE-3193关于这一点。

我没有找到任何关于此的文件，但是*/*作品。所以就是-input 'path/*/*'.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

nested

MapReduce

directorywalk

Hadoop MapReduce 提供嵌套目录作为作业输入的相关文章

Hive - 通过聚合跨组的值来创建映射列类型

我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
当与curl一起使用--negotiate时，是否需要keytab文件？

The 文档 http hadoop apache org docs stable hadoop project dist hadoop hdfs WebHDFS html描述如何连接到 kerberos 安全端点显示以下内容 curl i
python 如何在嵌套列表中搜索项目

假设我有这个清单 li 0 20 ar 20 40 asdasd 50 199 bar 24 69 sarkozy 现在忘掉数字吧它们让我能够识别字符串的位置所以基本上鉴于我手头有字符串 ar 我如何提取包含 ar 的所有列表 ne
Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
如何使用 Sencha Touch 数据模型读取嵌套 JSON 结构？

我整个晚上都在试图解决这个问题但没有成功我有一个 JSON 结构如下来自另一个系统所以我无法更改其结构 parents parent parentId 1 children child childId 1 ch
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
计算 python 字典/数组数据结构的非空尾叶 - 递归算法？

我正在寻找一个函数来查找一种复杂字典数组结构的所有非空端点我认为因为我不知道嵌套数组的数量或它们的位置所以它必须是递归的而我只是还没有完全理解这种思维方式所以对于嵌套字典 x top middle nested value nes
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB

随机推荐

C# Java HashMap 等效项

从 Java 世界进入 C 世界是否有一个 HashMap 等价物如果不是你会推荐什么 Dictionary https learn microsoft com en us dotnet api system collections g
将单位类型附加到 Sass 中的计算结果

我最近一直在将 CSS 重构为 SASS 样式表我正在使用Mindscape Web 工作台扩展 http visualstudiogallery msdn microsoft com 2b96d16a c986 4501 8f97 80
使用内部 SecurityException 抛出异常仅显示 ASP.NET MVC 中的内部异常

如果我将以下行添加到 ASP NET MVC 操作方法 throw new Exception outer new SecurityException inner 死机黄屏上实际显示的错误是内部SecurityException 完全没有提
您可以使用 masterdetailpage 图标/文本创建一个点击事件吗？

我有一个带有菜单页用作我的主详细信息页和我的内容页的根页面当我单击菜单页图标文本时我希望菜单页 mdp 在单击图标文本时初始化其组件是否可以这是我目前拥有的代码 public RootPage NavigationPage
Postgres 错误：无法打开文件进行读取：权限被拒绝

计算机 Mac OS X 版本 10 8 数据库 Postgres 尝试将 csv 文件导入 postgres pg gt copy items ordered from users darchcruise desktop items or
用INSERT覆盖cassandra中的行，会导致墓碑吗？

由于数据量和速度的原因在我们的例子中将数据写入 Cassandra 而不导致其创建逻辑删除至关重要目前我们只写了一次行然后就不需要再次更新该行只需再次获取数据现在有一种情况我们实际上需要写入数据然后用更多的数据来完成过一段
awk unix - 匹配正则表达式 - 正则表达式字符串大小限制想法？

以下代码作为一个最小示例它搜索文本后来是一个大型 DNA 文件中存在一个不匹配的正则表达式 awk BEGIN print match CTGGGTCATTAAATCGTTAGC ATC A TC AA C AAT 后来我对找到正则表
是否可以在 R闪亮中运行Python脚本

我有一些格式奇怪的数据集并编写了一些 python 脚本来转换为 csv 格式以在 R 中使用是否可以在 R 闪亮应用程序中调用 python 脚本这是一个最小的 Shiny 应用程序它使用rPython执行 python 调用 l
HTTP 413 请求实体太大

我目前无法在 drupal 7 7 15 中的自定义文件字段上使用 Drupal FileField Source 远程 url 选项发布非常大的文件文件已成功上传到 tmp 目录但在尝试发布时失败文件大小为870Mb A 510m
如何在yml映射的实体中配置VichUploader？

我有一个名为杂志的实体从 yml 文件映射 Acme DemoBundle Entity Magazine type entity table magazine id id type integer generator strateg
为什么参数依赖查找不适用于函数模板dynamic_pointer_cast

考虑以下 C 程序 include
jQuery 获取选中复选框的标签

在下面的代码中当我检查墨西哥时我不断收到 MexicoMexico 作为标签文本返回对于所有其他字段我没有得到这个重复的结果它仅适用于这一字段该问题在第一次分配countryvalues i 后立即发生我不明白为什么 di
NHibernate SchemaUpdate 在生产代码中安全吗？

为了简单起见我在运行时将 Fluent NHibernate 的 Automapping 与 NHibernate 的 SchemaUpdate 结合使用每次运行时 Automapper 都会为所有实体类创建映射而 SchemaUpd
Swagger / Open API 2.0 我可以声明通用响应标头吗？

是否可以声明一个自定义响应标头该标头将出现在所有响应中而无需将其复制到每个响应结构中这在 OpenAPI 3 0 中有所改进您现在可以在全局中定义通用标头components headers部分然后 ref这些定义而不是重复内联定义
HTTP 标头中 CRLF 序列的不正确中和

我在我的项目上运行了 Veracode 扫描它在 HTTP 响应拆分下给了我 CWE ID 113 问题我尝试根据建议解决该问题但没有成功例如 try String selNhid req getParameter selNhid
使用 JWT 刷新令牌如何安全？

据我了解您可以缩短 JWT 访问令牌的生命周期这样如果有人可以访问它它就不会长期工作但是我们不会对 JWT 刷新令牌执行相同的操作来增强用户体验但现在如果有人可以访问我的 JWT 刷新令牌这将授予他们访问受保护资源的权限那
Haskell 二级多态编译错误

给出以下定义 import Control Monad ST import Data STRef fourty two do x lt newSTRef 42 Int readSTRef x 在 GHC 下编译如下 main print r
dplyr left_join 按小于、大于条件

这个问题与问题有些相关根据不平凡的标准有效合并两个数据帧 https stackoverflow com questions 18840410 efficiently merging two data frames on a non tri
pandas 在构造特定数据类型的数据框时是否有默认填充值？

考虑字典d d A x 1 y 1 B y 1 z 1 当我把这个传递给pandas DataFrame http pandas pydata org pandas docs stable generated pandas DataFram
Hadoop MapReduce 提供嵌套目录作为作业输入

我正在从事一项处理嵌套目录结构的工作其中包含多个级别的文件 one three four baz txt bleh txt foo txt two bar txt gaa txt 当我添加one 作为输入路径不会处理任何文件因为没有文

Hadoop MapReduce 提供嵌套目录作为作业输入

Hadoop MapReduce 提供嵌套目录作为作业输入 的相关文章

随机推荐

热门标签

Hadoop MapReduce 提供嵌套目录作为作业输入的相关文章