合并hdfs文件

2024-01-09

我在 HDFS 中有 1000 多个可用文件，命名约定为1_fileName.txt to N_fileName.txt。每个文件的大小为 1024 MB。我需要将这些文件合并到一个（HDFS）中，并保持文件的顺序。说5_FileName.txt应该只附加在之后4_fileName.txt

执行此操作的最佳和最快方法是什么？

有没有什么方法可以执行这种合并而不在数据节点之间复制实际数据？例如：获取该文件的块位置并使用这些块位置在 Namenode 中创建一个新条目（FileName）？

没有有效的方法可以做到这一点，您需要将所有数据移动到一个节点，然后返回到 HDFS。

用于执行此操作的命令行脚本如下：

hadoop fs -text *_fileName.txt | hadoop fs -put - targetFilename.txt

这会将与 glob 匹配的所有文件捕获到标准输出，然后您将该流传输到 put 命令并将该流输出到名为 targetFilename.txt 的 HDFS 文件

你遇到的唯一问题是你所选择的文件名结构 - 如果你有固定宽度，用零填充数字部分会更容易，但在当前状态下你会得到一个意想不到的词典顺序（1, 10, 100, 1000 、 11、 110 等）而不是数字顺序（1、2、3、4 等）。您可以通过将 scriptlet 修改为以下方式来解决此问题：

hadoop fs -text [0-9]_fileName.txt [0-9][0-9]_fileName.txt \
    [0-9][0-9[0-9]_fileName.txt | hadoop fs -put - targetFilename.txt

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

HDFS

合并hdfs文件的相关文章

hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
使用 PyArrow 从 HDFS 读取镶木地板文件

我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径而hdf
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

如何在 Windows 中设置 MCR_CACHE_ROOT

我知道这可能是一个简单的问题但如何在 Windows 中设置 MCR CACHE ROOT 可以给我详细的步骤吗我应该在哪里指向 MCR CACHE ROOT 的路径以加快编译的应用程序启动时间对于 Windows 7 您可以将其设置
获取 NSTableView 中内容的高度

有没有办法获得内容的高度NSTableView 在 iOS 中您可以使用 contentSize的方法UIScrollView 但是那 contentSize的方法NSScrollView似乎只返回可见部分的高度NSScrollView
为什么对 UUID 进行 MD5 处理不是一个好主意？

PHP 有一个uniqid https www php net manual en function uniqid php生成某种 UUID 的函数在使用示例中它显示了以下内容 token md5 uniqid 但在评论中有人这么说
如何知道中断是否被禁用？

有什么方法或有用的函数可以知道中断是否被禁用您可以使用irqs disabled 功能 include
在信标上循环

Override public void onBeaconServiceConnect BeaconManager beaconManager BeaconManager getInstanceForApplication this bea
如何处理作为单个指令的操作数的多个溢出值？

我想实施线性扫描寄存器分配Poletto 和 Sarkar 提出的算法 http www seas gwu edu hchoi teaching cs160d linearscan pdf 它非常简单为每个活动间隔分配一个寄存器或堆栈位置
调用未定义的方法 MongoDB\Driver\ReadConcern::isDefault()

我真的不知道问题是什么 https i stack imgur com KeeOb png class RegisterController extends Controller public function store request
更改ckeditor的背景？

如何更改用户键入文本的 CKEditor 的背景颜色我需要动态地执行此操作但找不到需要更改的元素知道如何瞄准它吗您可以尝试 CKEDITOR instances editor1 document getBody setStyle b
检查密码是否包含字母数字和特殊字符

如何检查字符串passwordText是否至少包含 1 个字母字符 1 号 1 个特殊字符符号尝试这个 bool result passwordText Any c gt char IsLetter c passwordText Any
Android 中的无效区域是什么？

在 Android如何绘制视图主题下有这样一句话绘图从根节点开始布局要求测量并绘制布局树绘图是通过走树来处理渲染每个相交的视图这无效区域而且我不太理解无效区域这个词这里是引文的来源文章 http develope
Jquery Mobile 弹出菜单不起作用

我正在尝试构建一个虚拟页面来理解 Jquerymobile 但我无法实现菜单单击页面上的菜单按钮处理以下链接 http jquerymobile com branches popup widget docs pages popup i
使用 gson 错误转换 json 预期为 BEGIN_OBJECT，但在第 1 行第 2 列路径 $ 处为 BEGIN_ARRAY

user id 5633795 username Vorago count300 203483 count100 16021 count50 1517 playcount 1634 ranked score 179618425 total
从字符串中删除换行符

我有一个像这样的字符串 var aString This is a string n n This is the second line of the string n n 文本视图内部如下所示 This is a string This
async wait 与 TcpClient 的使用

我最近开始使用新的 C 5 0 async 和 await 关键字我以为我得到了转折但意识到一件事让我怀疑以下是我如何从远程 TcpClient 异步接收数据一旦我接受连接我就调用这个函数 static async void Re
如何在查询字符串中包含特殊字符？

URL http localhost mysite mypage param 123工作正常但是如果我想在其中添加一些特殊字符param like 那么 URL 就变成了http localhost mysite mypage para
Flutter 中的设备国家/地区

我正在尝试在 Flutter 中获取设备国家地区 Android 我用了本教程 https flutter dev docs development accessibility and localization international
尝试在 Cloud Run 中使用 Google Cloud Storage 时调用者没有权限

我正在尝试使用 Cloud Storage 在 Google Cloud Run 上设置 Node 项目使用创建的服务帐户时我遇到了身份验证问题创建服务帐户时我成功下载了 JSON 令牌并使所有内容在本地开发环境中正常运行问题是
为什么 Rails 的“HashWithIn DifferentAccess”将键存储为字符串而不是符号？

我在用enum将数据库中的整数映射到 ruby 代码中的语义值但是我注意到它使用的键是字符串当我检查哈希的类型时我发现它是一个ActiveSupport HashWithIndifferentAccess 不是一个标准Hash 这是有
django 和 mod_wsgi 的配置问题

我在让 django 使用 mod wsgi 在 apache 2 2 上工作时遇到问题 Django 和 mod wsgi 都已安装我什至可以在访问路径时看到 404 页面并且可以登录 django admin 但如果我想安装标记模块
合并hdfs文件

我在 HDFS 中有 1000 多个可用文件命名约定为1 fileName txt to N fileName txt 每个文件的大小为 1024 MB 我需要将这些文件合并到一个 HDFS 中并保持文件的顺序说5 FileName

合并hdfs文件

合并hdfs文件 的相关文章

随机推荐

热门标签

合并hdfs文件的相关文章