从 HDFS 到 Amazon S3 的 Hadoop distcp 问题

2024-04-12

我正在尝试使用以下方法将数据从 HDFS 移动到 S3distcp. The distcp作业似乎成功了，但在 S3 上，文件未正确创建。有两个问题：

文件名和路径不会被复制。所有文件最终都为block_<some number>在桶的根部。
它在 S3 上创建了一堆额外的文件，其中包含一些元数据和日志。

我找不到这方面的任何文档/示例。我缺少什么？我该如何调试？

以下是更多详细信息：

$ hadoop version 
Hadoop 0.20.2-cdh3u0
Subversion  -r 
Compiled by diego on Sun May  1 15:42:11 PDT 2011
From source with checksum 
hadoop fs –ls hdfs://hadoopmaster/data/paramesh/
…<bunch of files>…

hadoop distcp  hdfs://hadoopmaster/data/paramesh/ s3://<id>:<key>@paramesh-test/
$ ./s3cmd-1.1.0-beta3/s3cmd ls s3://paramesh-test

                       DIR   s3://paramesh-test//
                       DIR   s3://paramesh-test/test/
2012-05-10 02:20         0   s3://paramesh-test/block_-1067032400066050484
2012-05-10 02:20      8953   s3://paramesh-test/block_-183772151151054731
2012-05-10 02:20     11209   s3://paramesh-test/block_-2049242382445148749
2012-05-10 01:40      1916   s3://paramesh-test/block_-5404926129840434651
2012-05-10 01:40      8953   s3://paramesh-test/block_-6515202635859543492
2012-05-10 02:20     48051   s3://paramesh-test/block_1132982570595970987
2012-05-10 01:40     48052   s3://paramesh-test/block_3632190765594848890
2012-05-10 02:20      1160   s3://paramesh-test/block_363439138801598558
2012-05-10 01:40      1160   s3://paramesh-test/block_3786390805575657892
2012-05-10 01:40     11876   s3://paramesh-test/block_4393980661686993969

您应该使用 s3n 而不是 s3。

s3n 是本机文件系统实现（即常规文件），使用 s3 在文件上强加 hdfs 块结构，因此如果不通过 hdfs 库就无法真正读取它们。

Thus:

hadoop distcp hdfs://file/1 s3n://bucket/destination

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

amazonwebservices

amazons3

从 HDFS 到 Amazon S3 的 Hadoop distcp 问题的相关文章

从 EC2 实例 ID 创建 AMI 时，command.resolveMiddleware 不是 AWS SDK 的函数，想知道为什么？

我当时正在开发 AWS SDK 版本 3 并尝试以编程方式从 EC2 实例创建 AMI 以下是我使用的脚本 Imports TODO Import the ec2 client const EC2Client CreateImageComm
如何通过id获取最近共享的AWS RDS快照？

我在 AWS RDS 上有 2 个数据库其中一个用于stage和一个用于production跨 2 个帐户我正在尝试将数据复制到production to stage每 x 天我的计划是复制最近的自动备份快照production并分享
将文件从一个文件夹移动到 s3 中的另一个文件夹

首先我尝试将文件复制到其他文件夹中但无法删除它仅当文件复制到目标文件夹时如何才能删除该文件 const s3Params Bucket bucket CopySource bucket objectkey Key processed
如何在docker的keycloak中添加SSL

我在将 SSL 证书添加到在 docker 上运行的 Keycloak 时遇到问题我通过负载均衡器从 AWS EC2 获得了 SSL 证书但不知道如何将其添加到 docker 上的 Keycloak 中我正在通过谷歌搜索但尚未找到任
使用 AWS API Gateway 和 Lambda 从 multipart/form-data 获取非文件正文

我正在尝试从multipart form data POST通过 API 网关连接到我的 AWS Lambda Web 服务超文本传输协议POST具有内容类型 multipart form data 和 URL 编码的正文文件数据也在
AmazonServiceException：用户无权执行：dynamodb：DescribeTable 状态代码：400；错误代码：AccessDeniedException

我原本以为这个问题是由于区域不匹配造成的但是在更改区域后在尝试此处找到的 Amazon AWS 示例时我仍然遇到以下错误 DynamoDB映射器 https github com awslabs aws sdk android sam
如何运行指定 node.js 版本 8 的 eb init？

I run eb init并部署我得到了node js版本6 如何在执行时指定我想要node js版本8eb init命令这是一个有趣的问题我很想知道是否有更简单的方法但我是这样实现的确定最新的SolutionStack名称如所列
亚马逊 AWS CloudFront 声称不存在这样的存储桶

我正在尝试设置 CloudFront 来提供图像但当前无法访问它并返回错误指定的存储桶不存在
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
使用 Lambda 函数运行 AWS Athena 的查询

我在 AWS Athena 上创建了一个表可以在其中运行任何查询而不会出现任何错误 select from mytestdb test 该表有三列 customer Id product Id price 我尝试创建一个 lambda 函
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
如何在 PuTTY 中保存并运行 Java 文件？

我是 AWS 亚马逊网络服务的新手所以这可能是一个基本问题我在 AWS 上创建了一个 EC2 实例我有一台 Windows 计算机因此我使用 PUTTY 来连接 Linux 实例连接到我的 EC2 实例后我使用以下命令编写 J
AWS SQS Batch SendMessageBatchRequest 非常慢

我的应用程序使用 SendMessageBatchRequest 将每个请求发布 10 条消息到 AWS SQS 每条消息的大小小于250字节该应用程序预计每天发布约一百万条记录但要实现这一目标消息发布的速度非常慢 AmazonSQS
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
将 Django 部署到 AWS；傻瓜静态文件

我对这个项目的最后一步完全迷失了到目前为止我已经能够开发一个 Django 应用程序它可以在本地主机上按照我想要的方式工作我已经能够将网站部署到 AWS EC2 但我一定错过了有关提供静态文件的一些基本知识我什至还没有尝试过媒体文
我们能否知道回形针下载何时完成？

我有一个应用程序我需要知道用户的 Rails Paperclip 文件下载时间complete 我的应用程序设置为与 Amazon S3 交互当用户收到完整的文件时我需要运行 JavaScript 函数我怎样才能做到这一点跟踪天气
带有 AWS S3 文件的 Icecast 服务器

我目前正在运行 Icecast 服务器用于在 EC2 实例上传输音频目前我所有的 mp3 文件都存储在 EC2 实例上我想将它们移动到 AWS S3 进行存储到目前为止我已经能够找到能够更新播放列表 https mediareal
如何将域添加到 aws 上的现有 SSL 证书

我有一个与 Amazon Web Services 上的负载均衡器关联的 SSL 证书我想在该证书上有一个额外的域我的问题是是否可以向 aws 上现有的 ssl 证书添加额外的域我发现您可以在创建证书时添加其他名称但我不知道如何使
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
s3 中托管的静态网站：页面刷新后返回 404

使用此存储桶策略 Version 2012 10 17 Statement Sid PublicReadGetObject Effect Allow Principal Action s3 GetObject Resource arn aw

随机推荐

Spark 和 AWS S3 连接错误：无法通过 Spark-shell 从 S3 位置读取文件

在下面的 Spark shell 中我尝试连接到 S3 并加载文件以创建数据帧 spark shell packages com databricks spark csv 2 10 1 5 0 scala gt val sqlContex
哪个 ORM 支持这个

我有一个可选的查询部分需要在特定条件下执行这是示例代码 int cat 1 int UserID 12 string qry select from articles if cat gt 0 qry where categoryID c
如何仅在特定 API 级别上执行代码

例如这段代码 if Build VERSION SDK INT gt Build VERSION CODES GINGERBREAD myCalendarView setOnDateChangeListener new OnDateCha
如何向 CMFCPopupMenu 添加图标？

我想用CMFCPopupMenu用于右键单击期间的弹出菜单如何添加图标CMFCPopupMenu 这是我在基本 MFC 应用程序中尝试的示例代码 CMFCPopupMenu TestCMFCPopMenu new CMFCPopupMen
str在 data.frame 中按行分割并按列分配结果

所以我有数据框 dat data frame x c Sir Lancelot the Brave King Arthur The Black Knight The Rabbit stringsAsFactors F gt dat x 1
Java 8 Streams：将对象列表转换为一组对象

我正在尝试将对象列表转换为一组对象以确保集合中是否不存在重复项我正在尝试使用 Streams 我有一个类产品如下 class Product int id String name float price public Product i
模拟通过实例使用的类方法

我正在尝试使用模拟修补类方法如所述在文档中 http www voidspace org uk python mock patch html patch Mock 对象本身工作正常但它的方法却不能例如它们的属性如下call coun
从 Delphi 将列表导出到 OpenOffice Calc

我正在使用 Delphi 7 我想使用自动化而不是使用文件将列表内容从我的程序导出到 OpenOffice Calc 任务很简单创建新文档迭代行列并更改单元格数据我找到了一些代码但它并不完整我希望有人有一些示例代码可以完成这个非
将 Python 安装到自托管 Windows 构建代理

我已经安装了 Windows 代理并且需要能够运行 Python 脚本我知道我需要安装Python 但我不知道如何安装我将标准安装中的 Python 文件添加到 AGENT TOOLSDIRECTORY Python 3 8 2 x6
Swift 的 Facebook 登录按钮

在 Xcode 中如果我创建一个UIView然后将自定义类添加为FBSDKLoginButton 当我单击时它会引导我完成 Facebook 登录然后返回到与FBSDKLoginButton但不是说登录按钮而是说现在注销当单击登录
使用装饰器恢复生成器

让我们有一个类它的功能有时会失败但经过一些操作后它就可以完美地工作现实生活中的例子是 Mysql 查询它会引发 mysql exceptions OperationalError 2006 MySQL server has gone
终止递归调用

据我所知 terminate 当异常处理出现问题时被调用通常只是没有被捕获我得到的只是一个错误行terminate called recursively 经过一段时间的谷歌搜索后我发现了很多例子 terminate called af
如何在 Visual Studio 中将 .NET Framework 更改为 .NET Standard/Core？

我在 Visual Studio 中有一个 C 解决方案它最初是在 NET Framework 中创建的我想将项目转换为 NET Standard Core 如果我进入项目 gt 属性我会看到附加的屏幕其中目标框架是 NET Fra
我应该如何解释 ghc 堆分析器的输出？

我有一个在 haskell 中实现的服务器进程它充当一个简单的内存数据库客户端进程可以连接然后添加和检索数据该服务使用的内存比我预期的要多我正在尝试找出原因我拥有的最粗略的指标是linux top 当我启动该过程时我看到一个大小
SeekBar minHeight 和 maxHeight 通过代码

有谁知道如何设置最小值和最大值SeekBar代码的高度我想重现与以下 XML 摘录相同的行为
在地图上显示线串的方向 - 自动缩放地图

我有这段代码它在地图上绘制一个线串它是用户提供的 2 个坐标点的轨迹 public class Quickstart public static void main String args throws Exception displa
使用 std 算法将容器分区/批量/分块为大小相等的块

我遇到过一种情况我必须将一组记录批量处理到数据库中我想知道如何才能做到这一点标准算法给定 10002 条记录我希望将其划分为 100 条记录的 bin 进行处理其余为 2 条记录的 bin 希望下面的代码能够更好地说明我想要完成的
强制浏览器将下载的文件保存在特定位置

我的项目是一个Asp Net MVC4Web应用程序目前它有一个方法来生成文本文件并将其发送到客户端的浏览器进行下载我需要修改它以强制浏览器将文件保存在客户端计算机上的自定义预定义位置这是不可能的因为这会带来严重的安全问题用户
根据 URL 参数选择下拉菜单 - PHP 还是 jQuery？

根据 URL 参数为我的表单选择输出选定的最佳方法是什么在我的 URL 中我可能有这个参数 term retail 我如何告诉下面的代码选择零售选项
从 HDFS 到 Amazon S3 的 Hadoop distcp 问题

我正在尝试使用以下方法将数据从 HDFS 移动到 S3distcp The distcp作业似乎成功了但在 S3 上文件未正确创建有两个问题文件名和路径不会被复制所有文件最终都为block

从 HDFS 到 Amazon S3 的 Hadoop distcp 问题

从 HDFS 到 Amazon S3 的 Hadoop distcp 问题 的相关文章

随机推荐

热门标签

从 HDFS 到 Amazon S3 的 Hadoop distcp 问题的相关文章