saveAsTextFile 到 Spark 上的 s3 不起作用，只是挂起

2024-01-10

我正在将 s3 中的 csv 文本文件加载到 Spark，过滤和映射记录并将结果写入 s3。

我尝试了几种输入大小：100k 行、1M 行和 350 万行。前两者成功完成，而后者（350 万行）挂起在某种奇怪的状态，其中作业阶段监控 Web 应用程序（端口 4040 中的应用程序）停止，并且命令行控制台卡住，甚至不响应 ctrl- C。 Master的网络监控应用程序仍然响应并显示状态为FINISHED.

在 s3 中，我看到一个空目录，其中有一个零大小的条目_temporary_$folder$。 s3 url 使用以下方式给出s3n://协议。

我在 Web 控制台的日志中没有看到任何错误。我还尝试了几种集群大小（1 个主节点 + 1 个工作节点、1 个主节点 + 5 个工作节点）并达到了相同的状态。

有人遇到过这样的问题吗？知道发生了什么事吗？

您可能遇到了 5GB 对象限制s3n FileSystem。您也许可以通过使用来解决这个问题s3 FileSystem (not s3n），或者通过对输出进行分区。

这是什么AmazonS3 - Hadoop 维基 https://wiki.apache.org/hadoop/AmazonS3 says:

S3 本机文件系统（URI 方案：s3n）用于在 S3 上读写常规文件的本机文件系统。该文件系统的优点是您可以访问 S3 上使用其他工具编写的文件。 [...] 缺点是 S3 对文件大小施加 5GB 的限制。

...

S3 块文件系统（URI 方案：s3）由 S3 支持的基于块的文件系统。文件以块的形式存储，就像在 HDFS 中一样。这允许有效地实施重命名。该文件系统要求您为该文件系统指定一个存储桶 [...] 该文件系统存储的文件可以大于 5GB，但它们不能与其他 S3 工具互操作。

...

AmazonS3（由 SteveLoughran 最后编辑于 2014-07-01 13:27:49）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazons3

apachespark

saveAsTextFile 到 Spark 上的 s3 不起作用，只是挂起的相关文章

AWS S3 预签名 URL 的 IAM 角色

我正在 EC2 实例中部署一个服务器程序该实例需要能够为 s3 创建预签名 URL 到目前为止我已将 AWS 凭证放在环境变量中进行测试但我现在想切换到 IAM 角色策略但是我不确定该角色也应该有权访问哪些策略我最初的猜测是拥有
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
Rails API ActiveStorage：获取公共 URL 以显示来自 AWS S3 存储桶的图像？

我设置了 Rails 5 2 API 并遵循了有关如何将图像附加到模型对象的文档这一切都工作正常我遇到的问题是我想在 JSON 对象中返回附件的公共 URL 以便我可以使用该 URL 作为源 img 并让它显示谢谢我的develop
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
AWS 存储桶和区域

该应用程序结合使用载波carrierwave aws宝石在迁移 Rails 版本升至 4 2 Ruby 版本 2 2 3 并重新部署到同一临时服务器时遇到了障碍 AWS 存储桶最初是在免费套餐中创建的即俄勒冈州 us west 2 但
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
AWS S3 JavaScript SDK - 网络错误：网络故障

我正在尝试使用 AWS 在浏览器网页的示例中提供的示例并且我不断收到NetworkingError Network Failure错误这是我正在使用的
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
Amazon S3 EPIPE 错误

UPDATE 让它工作从命令行 http www timkay com aws 向该用户添加完全访问策略权限后现在当我使用 Node 执行此操作时没有错误但我在 s3 文件管理器中看不到这些文件我在使用 Amazon 的 S3 服
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP

随机推荐

如何根据字符串变量在 Terraform 中有条件创建资源

虽然有条件地基于布尔变量创建资源是很常见的但我正在寻找一种基于变量中的字符串有条件地生成资源的方法例如我正在创建变量day Sunday 现在如果变量是not周日 Terraform 将创建资源否则什么都不会被创建 TF 有没有
为什么调用 Class.forName("com.mysql.jdbc.Driver") 会注册 MySQL for JDBC？ [复制]

这个问题在这里已经有答案了正如中所解释的 Class forName 和 Class forName newInstance 有什么区别 https stackoverflow com questions 2092659 what is
Java力场继承

我知道有很多关于 Java 继承的线索我已经读过但它们都代表它是怎样的而我需要如何改变它的知识所以我们有 2 个类 class t1 public int a 5 public void get System out pri
警告：侦听端口 52698 的远程端口转发失败

我正在使用 SSH 访问我大学的 afs 系统我喜欢使用 rmate 远程 TextMate 它需要 SSH 隧道所以我在我的 bashrc alias sshr ssh R 52698 localhost 52698 email pr
在 next.js 中触发客户端重新加载

Scenario 索引页使用 getInitialProps 来加载数据然后我们创建一个可以创建新数据的对话框创建新数据后应重新加载当前页面 Problem We use Router replace 重新加载页面但它会触发服务器端
是否可以在 html 文件的 script 标签中编译 Coffeescript 代码？ [复制]

这个问题在这里已经有答案了可能的重复有没有办法将 CoffeeScript 发送到客户端浏览器并将其编译为 JavaScriptthere https stackoverflow com questions 5170473 is the
批量创建需要事务原子性吗？

我正在使用bulk create https docs djangoproject com en 3 0 ref models querysets bulk createDjango 中的方法可以一次创建多个条目为了确保仅在没有例外的情况
仅第一个 UIView 添加的视图 addSubview 显示正确的方向

我设置了三个 ViewController 来处理三个视图我遇到的问题是在模拟器中方向是 LandscapeRight 这就是我想要的并且第一个视图在该横向视图中正确显示但是当我移动到第二个和第三个视图时它们会显示逆时针旋转 9
Boost 库格式；获取 std::string

我想添加一些使用 boost 库格式化的字符串如下所示 boost container vector
为什么实例仅通过其头部进行匹配？

我将首先介绍一个具体的问题 StackOverflow 的人就是这样假设您定义了一个简单类型 data T a T a 这种类型是一个Functor Applicative and a Monad 忽略自动派生要获取这些实例您必须编写
Android 上的 OpenCV 眼动追踪

我希望使用 OpenCV api 在 android 中进行基本的眼动追踪我发现在 Andriod 中使用 opencv 似乎有两种方法要么使用他们的 c 包装器要么使用 JavaCV api 我愿意这样做但我正在寻找一些想法或示例
要捕获的正则表达式：单词 {word} word

我正在尝试捕获单词 word 单词我有以下正则表达式 S s S s 它实际上捕获了这种模式但它也捕获了单词 word 看 https regex101 com r yI64KQ 6 https regex101 com r yI64
放大配置

我已经安装了 amplify cli 当我输入 amplify configure 时收到错误消息 amplify 不被识别为内部或外部命令可操作程序或批处理文件请分享您的平台您是在 Linux Windows Powershell
Xcode 6 GM 与 iPhone 5s (iOS 8 GM) - 0xE8000070

我在 iPhone 5s 型号 A1530 iOS 8 版本 12A365 上使用 Xcode 6 GM Seed 版本 6A313 我通过 USB 闪电数据线连接 iPhone 但在 Xcode 中它显示为 iPhone 5s 不可用
为什么 Foreman 在我按下 Control-C 之前不会输出一些内容？

我刚刚开始使用 Rails 编程看起来有两个程序可以用来在本地运行我的项目 rackup 和 foreman 我注意到的一个区别是 foreman 不会输出一些我希望看到的内容而我会查看是否运行rackup 直到我按 ctrl c 关闭
如何获取 stringbuilder 并将其转换为streamReader？

如何获取字符串生成器并将其转换为流所以我的 stringbuilder 必须转换为 StreamReader stream Update 我尝试使用字符串读取器例如 StringReader sr new StringReader sb
Suitecrm - pdf 模板中的 php 代码

我想在我的 pdf 模板中添加 php 代码这是我的用例 First is I have a dropdown on my own module 然后我想要的是我的 pdf 模板我想要基于我的下拉列表的值的 php 条件例如 if c
包括特定于 ASP.NET MVC4 视图或部分视图的脚本

我看过很多类似的问题如何在MVC4的局部视图中添加脚本 https stackoverflow com questions 14114084 how to add a script in a partial view in mvc4 and
内联这个函数还是不内联？

我应该实现一个比较两个相似字符串的函数strcmp但忽略空白字符所以 strcmpignorews abc a b c 应该给出相同的结果这是我的实现 namespace void SkipWhitespace const char s
saveAsTextFile 到 Spark 上的 s3 不起作用，只是挂起

我正在将 s3 中的 csv 文本文件加载到 Spark 过滤和映射记录并将结果写入 s3 我尝试了几种输入大小 100k 行 1M 行和 350 万行前两者成功完成而后者 350 万行挂起在某种奇怪的状态其中作业阶段监控 Web

saveAsTextFile 到 Spark 上的 s3 不起作用，只是挂起

saveAsTextFile 到 Spark 上的 s3 不起作用，只是挂起 的相关文章

随机推荐

热门标签

saveAsTextFile 到 Spark 上的 s3 不起作用，只是挂起的相关文章