将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

2024-04-27

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶。我认识到我可以直接在 Spark 中写入 S3，但原则上，之后执行它也应该很简单，到目前为止，我还没有发现在实践中这是正确的。

AWS 文档建议s3-dist-cp用于在 HDFS 和 S3 之间移动数据。这文档 http://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html for s3-dist-cp规定 HDFS 源应以 URL 格式指定，即hdfs://path/to/file。到目前为止，我已使用以下命令在 HDFS 和本地文件系统之间移动数据hadoop fs -get，其语法为path/to/file而不是hdfs://path/to/file。目前尚不清楚两者之间如何映射。

我正在通过 SSH 进入主节点。我尝试了以下操作，每个都有两个和三个斜杠：

hdfs:///[public IP]/path/to/file
hdfs:///[public IP]:8020/path/to/file
hdfs:///localhost/path/to/file
hdfs:///path/to/file
/path/to/file（以及许多变体）

在每种情况下，我的命令均按照文档进行格式化：

s3-dist-cp --src hdfs://... --dest s3://my-bucket/destination

我尝试过单个文件和整个目录。在每种情况下，我都会收到源文件不存在的错误。我究竟做错了什么？

相对和/或非完全限定路径会根据默认文件系统（在 core-site.xml 中配置为 fs.defaultFS，在 EMR 上默认为 hdfs）和当前工作目录（默认）自动解析为完全限定路径到/用户/。

在 EMR 上，像 /path/to/file 这样的绝对路径相当于 hdfs:///path/to/file。像 path/to/file 这样的相对路径解析为 hdfs:///user/hadoop/path/to/file （假设您以 hadoop 用户身份运行命令）。

您的 hdfs:// 路径遇到“文件未找到”错误的原因是（对于大多数示例）您将主机名放在了错误的位置，因为主机名前有太多斜杠。如果包含主机名，则其前面应该只有两个斜杠。不过，您实际上不需要包含主机名，因此您也可以编写 hdfs:///path/to/file。（连续三个斜杠意味着将使用默认主机名。）在大多数示例中，因为您有三个斜杠and包括主机名，它将主机名作为路径的一部分，而不是主机名。

在第四个示例（hdfs:///path/to/file）中，该路径实际上是有效路径，但它与 path/to/file 不同，后者是相对路径。与我上面提到的类似，/path/to/file 相当于 hdfs:///path/to/file，而 path/to/file 相当于 hdfs:///user/hadoop/path/to/file 。

顺便说一句，如果您使用主机名，我很确定您需要使用私有主主机名，而不是公共 IP。（不过，您可以完全保留主机名，并连续使用三个斜杠来表示您不包含主机名。）我建议不要使用主机名，因为那样您就需要随时更改路径您在不同的集群上运行了该命令。

最后，“hadoop fs -get”仅采用非 uri 样式路径而 s3-dist-cp 仅采用 uri 样式路径并不完全正确。其中任何一个都采用任一类型的路径。 “hadoop fs -get /path/to/file”和“hadoop fs -get hdfs:///path/to/file”都是有效且等效的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径的相关文章

将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
在 github 推送上将静态站点部署到 s3 的最佳策略？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想自动将我们的网站部署到 AWS S3 我已经编写了一个节点脚本来自动构建和上传网站但我希望每当m
Cloudformation 模板 - 具有 cloudfront 分发的 S3 存储桶网站 - 分发无法访问源

我只是想在 S3 存储桶上获取一个静态站点并且只能通过 CloudFront 发行版访问它但是缺少一些东西我不知道是什么目前我的堆栈有用于站点托管的 S3 存储桶用于为站点提供服务的云前端发行版存储桶策略仅允许分配访问该存储
AWS S3在两个存储桶之间复制文件和文件夹

我一直在寻找一种工具来帮助我将 AWS S3 存储桶的内容复制到第二个 AWS S3 存储桶而无需先将内容下载到本地文件系统我尝试使用 AWS S3 控制台复制选项但这导致一些嵌套文件丢失我尝试过使用 Transmit 应用程序由
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
如何通过 SSL 将文件直接上传到 S3？

我已经使用基于浏览器的 Amazon S3 直接 POST 上传有一段时间了最近想开始通过 HTTPS 发布普通的 HTTP 帖子就可以正常工作但是当我将相同的表格发布到https s3 amazonaws com https s
Spring Cloud AWS 与 Transfermanager：无法完成传输：连接池关闭

我在用Spring Boot 1 5 1 RELEASE with 春季云AWS 1 1 3 RELEASE将文件上传到 AWS S3 存储桶我想用转账管理器 http docs aws amazon com AWSJavaSDK lat
S3 Java 客户端经常失败，并出现“内容长度分隔消息正文过早结束”或“java.net.SocketException 套接字已关闭”

我有一个在 S3 上做很多工作的应用程序主要是从中下载文件我看到很多此类错误我想知道这是否是我的代码中的问题或者服务是否真的像这样不可靠我用来从 S3 对象流读取的代码如下 public static final void wri
如何删除/统计 s3 存储桶中的对象？

所以我知道这是一个常见问题但似乎没有任何好的答案我有一个桶里面有大量我不知道有多少文件都在2k一个以内 1 我如何知道我有多少个这些文件没有列出他们我使用过 s3cmd rb aws s3 和 jets3t 的东西我能找到的
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
调用 StartQueryExecution 操作时出现错误“请求中包含的安全令牌无效”UnrecognizedClientException

我在使用 athena 凭证在 redash 中设置数据源连接时遇到错误我在 athena 中有有效的访问权限可以运行查询并从 S3 获取日志现在我想将 athena 与 redash 集成所以我收到错误调用 StartQuery
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
最近的 AWS 区域的客户端 IP 地址

Question 我想从客户端设备将一些数据上传到 AWS 但我想上传到最近的 AWS 区域的 S3 存储桶同样我希望能够从最近的区域下载当然我会在每个区域设置一个存储桶我可以使用一个系统它可以获取客户端的 IP 地址然后确定
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
将文件从 CodeCommit 部署到 S3

我想将推送到 CodeCommit 存储库中的某些文件部署到 S3 存储桶中我正在尝试使用存储库上的 Lambda 触发器来执行此操作但是我无法获取提交中更改的文件列表也无法使用 AWS CodeCommit API 从 CodeC
关于 S3 文件传输的权限

我正在使用 S3TransferManager Sample 进行测试我创建了Cognito并设置了IAM并最后更改了constants swift文件我上传没有问题但下载失败错误信息是下载失败错误域 com amazonaws

随机推荐

将某些软件包的 nuget 软件包更新限制为当前版本

有没有办法禁用项目中安装的特定 nuget 包的更新我已经对几个 javascript 库包进行了一些本地修改并且不想冒将来有人更新我的更改的风险我从未创建过自己的 nuget 包我猜一种选择可能是分叉现有的包你可以尝试约束包 h
检查变量是否存在 - Terraform 模板语法

我正在尝试使用 terraform 模板语法检查模板文件中是否存在变量但出现错误This object does not have an attribute named proxy set header cat nginx conf tm
JavaScript 文件中的代码如何获取文件的 URL？

我需要将 CSS 样式表动态加载到位于不同的领域如何获取 JS 文件的完整 URL 以在href样式表的属性例如结构如下 http bla com js script js http bla com css style css 我想将
与 jQuery 配合使用的backbone.js 替代品？

有没有像backbone js这样的东西的替代品它为你的前端javascript提供了一些框架结构但没有任何不需要的依赖项并且与jQuery更紧密地结合在一起您需要一个易于使用的 MVC 框架吗因为Sammy js http s
如何使用 Spring 配置文件设置 Flyway 迁移文件位置

我有两个 Spring 配置文件dev and test配置为开发和测试环境在每个环境中我使用不同的数据库即h2在开发和postgresql在测试中以下是每个配置文件的我的属性文件其中 vendor 由 spring boot 解决h
如何指定 Gradle 包装器下载位置？

我们将项目转移到了 gradle 并在 Jenkins 上持续构建我们使用 gradle 包装器和 Jenkings gradle 插件通过查看控制台输出我发现每次构建都会下载 gradle 11 24 42 Downloading
堆栈小部件内的列表视图不起作用（scrollDirection：Axis.vertical）

我需要做这个设计 This is my code result 但是当我添加列表视图时它不起作用我需要垂直列表而不是水平列表列表视图 builder 滚动方向 Axis vertical 收缩包装真实项目数量 12 itemBuilde
C 结构体中的 Typedef

首先是令我困惑的代码 typedef struct Object typedef int MyInt void destructor Object void constructor struct Object Object 为什么编译器阻止
Heroku 在部署时不会预编译资产

它在其文档中非常清楚地表明如果我不在本地预编译它们它就会执行此操作说实话我对在本地预编译这些没有兴趣我所经历过的生产 rb 我已经复制了应用程序 rb In my 生产 rb config serve static assets
使用日期作为窗口函数实现 RANGE

从 SQLAlchemy 1 4 25 开始没有内置支持所以我尝试使用该解决方案here https stackoverflow com a 69606048 11277108 这是我的复制 from datetime import d
使用 ViewBag 时出现 RuntimeBinderException

我们收到 Layout cshtml 中使用的 Viewbag 项目的 RuntimeBinderException 我们在内存分析器中观察到这些异常它们不是致命的一切正常但很烦人我们想清除它们例如以下代码会导致异常 Rende
有时 git 会在没有我要求的情况下将所有远程 git 分支作为本地分支进行跟踪。发生了什么？

有时 git 会自发地在某些但不是全部拉取或克隆操作期间将存储库的所有远程分支复制到我的本地存储库中甚至将它们全部设置为正确跟踪相应的远程分支这是什么原因造成的有什么办法可以让我故意这样做吗如果您只是从远程分支执行普通分
如何获取屏幕触摸的 x,y 坐标？

当我的应用程序运行时每当有人触摸屏幕时是否有一种简单的方法来获取 x y 坐标只是想将它们存储在一些整数中覆盖onTouchEvent MotionEvent event 然后打电话event getX and event getY
如何强制 JTable 在包含阿拉伯字符的情况下不反转文本？

我有以下文字 word 但是当它显示在我的 JTable 上时它看起来像这样 word 在每个 JLabel 或 TextArea 或任何其他输入中它确实看起来像原始文本 word 仅在 JTable 上我遇到这样的问题我不在乎它是否
延迟作业：如何强制处理失败的作业

我正在维护一个 Rails 应用程序在该应用程序上运行 Delayed job gem 来发送电子邮件我刚刚注意到由于应用程序中的错误我所有延迟的工作在过去几天都失败了现在错误已修复我想尽快处理作业但它们已经有太多失败的尝试
使窗口在特定边界内可拖动 WPF

我有一个 wpf 子窗口允许使用 DragMove 方法进行拖动但是我需要允许仅在其父窗口控件的范围内拖动窗口谁能建议一种方法来实现这一目标谢谢有两种方法可以做到这一点 Using 地点已结束 http msdn microso
会话复制在多节点集群上的 glassfish 中不起作用

会话复制在多节点集群上的 glassfish 中不起作用 1 应用程序在 web xml 中包含可分发标签 2 应用程序部署在集群 c1 中该集群包含同一节点上的 2 个实例时会话复制可以正常工作 3 当部署在集群 c2 包含两台 C
配置 Jest 模仿 webpack 解析 root 和解析别名

我正在努力使用 Webpack 和 Jest 建立一个项目目前 Webpack 解决了配置导致 Jest 测试复杂化的问题在我的 webpack 配置中我设置了以下选项 resolve root dirname src extensi
Gnu 时间和格式化输出

我想使用 gnu time 来测量一些小 c 程序的运行时间人中写道 f FORMAT format FORMAT Use FORMAT as the format string that controls the output of
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp

将 hadoop fs 路径转换为 ​​EMR 上的 hdfs:// 路径

将 hadoop fs 路径转换为 ​​EMR 上的 hdfs:// 路径 的相关文章

随机推荐

热门标签

将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径的相关文章