HDFS：使用 HDFS API 附加到 SequenceFile

2024-06-24

我一直在尝试使用 Java API 在 HDFS 上创建和维护序列文件，而不运行 MapReduce 作业作为设置用于未来的 MapReduce 工作。我想将 MapReduce 作业的所有输入数据存储在单个序列文件中，但数据会随着时间的推移而附加。问题是，如果 SequenceFile 存在，则以下调用将仅覆盖 SequenceFile 而不是附加到它。

// fs and conf are set up for HDFS, not as a LocalFileSystem
seqWriter = SequenceFile.createWriter(fs, conf, new Path(hdfsPath),
               keyClass, valueClass, SequenceFile.CompressionType.NONE);
seqWriter.append(new Text(key), new BytesWritable(value));
seqWriter.close();

另一个问题是，我无法维护自己格式的文件并在一天结束时将数据转换为 SequenceFile，因为可以随时使用该数据启动 MapReduce 作业。

我找不到任何其他 API 调用来附加到 SequenceFile 并维护其格式。由于格式需要，我也不能简单地连接两个 SequenceFile。

我还想避免为此运行 MapReduce 作业，因为对于我添加到 SequenceFile 的少量数据来说，它的开销很高。

有什么想法或解决方法吗？谢谢。

支持追加到现有的SequenceFiles已通过增强 JIRA 添加到 Apache Hadoop 2.6.1 和 2.7.2 及以上版本中：https://issues.apache.org/jira/browse/HADOOP-7139 https://issues.apache.org/jira/browse/HADOOP-7139

例如用法，测试用例可以阅读：https://github.com/apache/hadoop/blob/branch-2.7.2/hadoop-common-project/hadoop-common/src/test/java/org/apache/hadoop/io/TestSequenceFileAppend.java#L63- L140 https://github.com/apache/hadoop/blob/branch-2.7.2/hadoop-common-project/hadoop-common/src/test/java/org/apache/hadoop/io/TestSequenceFileAppend.java#L63-L140

CDH5 用户可以在 CDH 5.7.1 及以后的版本中找到相同的功能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

HDFS

HDFS：使用 HDFS API 附加到 SequenceFile 的相关文章

Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
如何使用 python 从 Azure Data Lake Gen 2 读取文件

我有一个文件位于 Azure Data Lake gen 2 文件系统中我想读取文件的内容并进行一些低级更改即从记录中的一些字段中删除一些字符更明确地说有些字段的最后一个字符也为反斜杠由于该值包含在文本限定符中因此字段值会转义
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
Hadoop - 直接从 Mapper 写入 HBase

我有一个 hadoop 作业其输出应写入 HBase 我并不真正需要减速器我想要插入的行类型是在映射器中确定的如何使用 TableOutputFormat 来实现此目的从所有示例中我看到的假设是 reducer 是创建 Put 的
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
使用 Hive 计算文本变量的单词频率

我有一个变量每一行都是一个句子例子 Row1 Hey how are you Rwo2 Hey Who is there 我希望输出是按单词分组的计数 Example Hey 2 How 1 are 1 我正在使用 split a bi
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
关于 Hadoop 和压缩输入文件的非常基本的问题

我已经开始研究 Hadoop 如果我的理解是正确的我可以处理一个非常大的文件它会被分割到不同的节点上但是如果文件被压缩那么文件就无法分割并且需要由单个节点处理有效地破坏了运行一个mapreduce 一个并行机器集群我的问题是
如何配置Hive仓库路径？

我修改了这部分
像袋子一样压平元组

我的数据集如下所示 A 1 2 B 2 9 我想展平 Pig 中的元组基本上为内部元组中找到的每个值重复每个记录这样预期的输出是 A 1 A 2 B 2 B 9 我知道当元组 1 2 和 2 9 是袋时这是可能的你的洞察力很好可以
“客户端”对于 Hadoop/HDFS 究竟意味着什么？

我理解其背后的一般概念但我希望对客户是什么有更多的澄清和明确的定义例如如果我只是在终端上写一个 hdfs 命令它仍然是客户端吗 ClientHadoop中是指用于与Hadoop文件系统通信的接口 Hadoop 可使用不同类型
主节点的“start-all.sh”和“start-dfs.sh”没有启动从节点服务？

我已使用从属节点的主机名更新了 Hadoop 主节点上的 conf slaves 文件但我无法从主节点启动从属节点我必须单独启动从属服务器然后我的 5 节点集群才能启动并运行如何使用主节点的单个命令启动整个集群此外 Seconda
HBase中删除多行的有效方法

有没有一种有效的方法可以删除 HBase 中的多行或者我的用例是否不适合 HBase 有一个表称为图表其中包含图表中的项目行键的格式如下 chart date reversed ranked attribute value reve
如何通过HBase REST服务获取Phoenix表数据

我使用 Phoenix JDBC 驱动程序在以下代码片段中创建了一个 HBase 表 Class forName org apache phoenix jdbc PhoenixDriver Connection conn DriverMan
enableHiveSupport 在 java Spark 代码中引发错误[重复]

这个问题在这里已经有答案了我有一个非常简单的应用程序尝试使用 Spark 从 src main resources 读取 orc 文件我不断收到此错误无法实例化具有 Hive 支持的 SparkSession 因为找不到 Hive

随机推荐

RSpec：如何创建辅助存根方法？

我正在尝试从我的助手中存根一个助手方法 sessions helper rb require rest client module SessionsHelper BASE URL http localhost 1234 def curren
使用 R / ggplot2 将标签添加到 geom_bar() 内的各个% [重复]

这个问题在这里已经有答案了 bgraph lt ggplot data data aes x location geom bar aes fill success success是作为 4 个类别的因子计算的百分比其中数据集有 4 个不同
VS2005 Web 部署项目到 VS2008 - ASPNET 编译器错误

我遇到了问题wdproj我已经升级到VS2008 这是我在尝试使用 msbuild 编译项目时遇到的错误 ASPNETCOMPILER error ASPRUNTIME The precompilation target directory
为什么未执行的语句会减慢我的函数速度？

我创建了四个不同的函数如下所示 var normal function return var control function return alert Hello world var withArguments function ret
Delphi 中的非字母排序

我正在尝试按特定顺序对字符串列表进行排序我尝试用 B C A 来订购而不是 A B C 我已经按照我需要的顺序声明了一个 const 数组我尝试过 CustomSorte 但我不明白如何编写该函数我现在正在尝试使用 for 循环但
如何解决 pydocstyle 错误“D205：摘要行和描述之间需要 1 个空行（找到 0）”？

我正在尝试使用 pydocstyle 检查文档字符串的质量但收到此错误 D205 1 blank line required between summary line and description found 0 这就是我的代码的样子
三元语句中的 C 逗号

int m 5 d 12 y 1975 val May 12 1975 有人可以解释一下下面代码行中逗号运算符的功能用途吗 val d m lt 3 y y 2 23 m 9 d 4 y 4 y 100 y 400 7 The 线以上 h
uiwebview 中的高分辨率图像

我有一个显示图像的网络视图如下面的代码所示该捆绑包还有一个电子邮件受保护 cdn cgi l email protection尺寸为 128x128 适用于 iPhone4 这电子邮件受保护 cdn cgi l email prot
jQuery 延迟与 jqXHR

I use var jqXHR ajax settings jqXHR success function result jqXHR error function result jqXHR complete function result 但
Android 翻译动画

我有一个位于底部上方 250dp 的 ImageView 并且使用平移动画我想将其移动到底部上方 50dp 我知道如何使用翻译动画但我不知道 ToYValue 字段是什么代码将是这样的 TranslateAnimation transl
Facebook android sdk 的“AccessToken.getCurrentAccessToken.getUserId()”方法返回的 id 与使用 findmyfbid.com 检索到的 id 不同

我正在尝试这样获取用户的 id AccessToken getCurrentAccessToken getUserId 它返回一个像这样的 id 1493 22153 但是当我使用以下命令检索同一用户的 id 时查找我的fbid com h
在 Java 中调整数组大小同时保留当前元素？

我已经在Java中搜索了调整数组大小的方法但找不到调整数组大小的方法同时保留当前元素我发现例如这样的代码int newImage new int newWidth 但这会删除之前存储的元素我的代码基本上会这样做每当添加新元素时数组
32 位无符号乘法在 64 位上导致未定义的行为？

所以我有关于这段代码 uint32 t s1 0xFFFFFFFFU uint32 t s2 0xFFFFFFFFU uint32 t v v s1 s2 Only need the low 32 bits of the result 在以
iOS 内存占用的正确统计数据是什么？活字节？真实记忆？其他？

我在这一点上肯定很困惑我有一个 iPad 应用程序在对象分配工具中显示 6 12mb 的实时字节使用情况如果我调出内存监视器或活动监视器在严重使用后实际内存列会持续攀升至 80 90mb 左右那么我的内存占用是正常的还是高
如何将 python 正则表达式转换为 java 正则表达式？

我在Python中有一些正则表达式我需要将其转换为java 我知道我想要正则表达式做什么但我只是不知道如何转换它这是Python中的表达式 172 1 6789 2 d 30 31 我希望它能够捕获任何类型的 IP 地址例如172
加载 requireJS 和 Backbone 的多个实例

我正在创建一个 google chrome 扩展当在选项卡上激活时它会将一些自定义代码和一些新视图加载到该窗口的文档中我想使用 requireJS 加载扩展调用的这些新代码模块但是我担心如果调用此扩展的应用程序网站已经在运行 r
简单的awk命令问题（FS、OFS相关）

我尝试重新组织包含以下内容的文件的格式 gt Humanl chr16 86430087 86430726 element 1 positive gt Humanl chr16 85620095 85621736 element 2 neg
使用 AngularFireObject 和 switchMap

我真的不知道如何解决这个问题我该如何修复这个错误 in user service ts import Injectable from angular core import AngularFireDatabase AngularFireL
Android和Unity 3D游戏开发

我开始探索使用 Unity 3d for android 进行游戏开发我已经下载了unity 3 3的试用版我浏览了一些教程我有一个问题没有得到解答在我们使用eclipse开发的普通应用程序中我们可以通过复制apk文件来部署到手机
HDFS：使用 HDFS API 附加到 SequenceFile

我一直在尝试使用 Java API 在 HDFS 上创建和维护序列文件而不运行 MapReduce 作业作为设置用于未来的 MapReduce 工作我想将 MapReduce 作业的所有输入数据存储在单个序列文件中但数据会随着时间的推

HDFS：使用 HDFS API 附加到 SequenceFile

HDFS：使用 HDFS API 附加到 SequenceFile 的相关文章

随机推荐

热门标签