Spark 2.0：4 行。 IllegalArgumentException：界限必须为正

2024-05-02

我正在 Amazon EMR 5.0 上的 Spark 2.0 上尝试一个超级简单的测试程序：

from pyspark.sql.types import Row
from pyspark.sql.types import *
import pyspark.sql.functions as spark_functions

schema = StructType([
    StructField("cola", StringType()),
    StructField("colb", IntegerType()),
])

rows = [
    Row("alpha", 1),
    Row("beta", 2),
    Row("gamma", 3),
    Row("delta", 4)
]

data_frame = spark.createDataFrame(rows, schema)

print("count={}".format(data_frame.count()))

data_frame.write.save("s3a://test3/test_data.parquet", mode="overwrite")

print("done")

结果是：

count=4
Py4JJavaError: An error occurred while calling o85.save.
: org.apache.spark.SparkException: Job aborted.
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1.apply$mcV$sp(InsertIntoHadoopFsRelationCommand.scala:149)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1.apply(InsertIntoHadoopFsRelationCommand.scala:115)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1.apply(InsertIntoHadoopFsRelationCommand.scala:115)
    at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:57)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:115)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:60)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:58)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:74)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:115)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:115)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:136)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:133)
    at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:114)
    at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:86)
    at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:86)
    at org.apache.spark.sql.execution.datasources.DataSource.write(DataSource.scala:487)
    at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:211)
    at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:194)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:237)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:280)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:128)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:211)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.IllegalArgumentException: bound must be positive
    at java.util.Random.nextInt(Random.java:388)
    at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.confChanged(LocalDirAllocator.java:305)
    at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:344)
    at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.createTmpFileForWrite(LocalDirAllocator.java:416)
    at org.apache.hadoop.fs.LocalDirAllocator.createTmpFileForWrite(LocalDirAllocator.java:198)
    at org.apache.hadoop.fs.s3a.S3AOutputStream.<init>(S3AOutputStream.java:87)
    at org.apache.hadoop.fs.s3a.S3AFileSystem.create(S3AFileSystem.java:421)
    at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:913)
    at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:894)
    at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:791)
    at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:780)
    at org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.commitJob(FileOutputCommitter.java:336)
    at org.apache.parquet.hadoop.ParquetOutputCommitter.commitJob(ParquetOutputCommitter.java:46)
    at org.apache.spark.sql.execution.datasources.BaseWriterContainer.commitJob(WriterContainer.scala:222)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1.apply$mcV$sp(InsertIntoHadoopFsRelationCommand.scala:144)
    ... 29 more
(<class 'py4j.protocol.Py4JJavaError'>, Py4JJavaError(u'An error occurred while calling o85.save.\n', JavaObject id=o86), <traceback object at 0x7fa65dec5368>)

遇到了同样的问题，经过一番混乱之后，似乎 s3:// 和 s3n:// 可以工作。但它们比 s3a:// 慢很多...我能让 s3a:// 工作的唯一方法是设置一个缓冲区目录，这样它就不会直接从内存进行快速复制 -

hadoopConf=sc._jsc.hadoopConfiguration()
hadoopConf.set("fs.s3a.buffer.dir", "/home/hadoop,/tmp")

不幸的是，启用该功能后，它并不比普通 s3/s3n 快多少！

编辑：添加这个也可以消除错误，意识到我假设它正在快速复制。不幸的是没有更快... hadoopConf.set("fs.s3a.fast.upload", "true")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark 2.0：4 行。 IllegalArgumentException：界限必须为正的相关文章

为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出

随机推荐

为什么表上主键的存在可以显着提高列存储索引的性能？

我试图了解列存储索引可以在表上提供什么样的性能提升该表大约有 370 万行 11 列并存储为堆即没有主键我在表上创建列存储索引并运行以下查询 SELECT Area Family AVG Global Sales Value AS
Seaborn 中同一地块上的多个图表

我正在尝试为某些数据绘制条形样式 factorplot 然后在其上绘制常规点样式 factorplot 以适合该数据因此对于数据图我可以简单地执行以下操作 sns factorplot x x y yData data dataFra
从另一个视图控制器调用一个视图控制器的方法

我在 OneViewController h 中声明了一个方法 someMethod interface OneViewController UIView tempView void someMethod end 并在 OneViewCon
如何获取 LinkedHashMap 的 keyIterator？

通过查看Sun的LinkedHashMap的源代码我发现有一个名为Key Iterator的私有类我想使用它我怎样才能获得访问权限您可以通过致电获取 myMap keySet iterator 你甚至不需要知道它的存在它只是实现的
GCM 推送通知延迟

我们有一个应用程序 Ruby on Rails 向 Android 应用程序发送推送通知我们面临着 GCM 的问题其中一些通知要么被延迟要么从未收到考虑到这些通知是发送给员工而不是最终用户我的问题是在没有任何延迟或丢失的情况下发
“TransformAppSettings”任务意外失败

我有一个 NET Core 3 Blazor 服务器端应用程序我最近从预览版 5 版本升级到了 NET Core 3 0 1 预览版 6 版本当我在本地构建并运行它时它工作正常但是当尝试将其发布到文件系统文件夹在框架相关模式下
使用 vb.net 在 MS Access 中插入和更新值

我已经检查了该网站上的大部分论坛但没有得到我的解决方案我的问题是将数据从 vb net 插入到 MS Access 但我无法做到它没有显示任何错误但也没有在我的表中插入值我正在使用非常简单的代码 Imports System Da
模板化无分支 int 最大/最小函数

我正在尝试编写一个无分支函数来返回两个整数的 MAX 或 MIN 而不求助于 if 或使用通常的技术 https stackoverflow com questions 227383 how do i programmatically r
向 ModelForm 添加额外字段

我正在向 Django ModelForm 添加一个额外的字段如下所示 class form forms ModelForm extra field forms CharField label Name of Institution cl
运算符重载中的成员二元运算符和非成员二元运算符

在尝试学习运算符重载时我阅读了 C Primer 中的以下陈述坦白说我不太明白这些言论想要传递什么信息这些示例包括定义成员二元运算符和非成员二元运算符使用时有什么区别吗通常我们将算术和关系运算符定义为非成员函数并将赋值运算符定
在哪里可以找到旧版本的 Android NDK？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有谁知道在哪里可以找到旧版本的 Android NDK 我们的代码不是用 r6 构建的肯定有某个地方
如何在 Cmake 生成的 ALL_BUILD 和 ZERO_CHECK Visual Studio 2013 项目中将 unicode 设置为字符集？

我目前正在使用 CMake 创建一堆 Visual Studio 2013 项目并且它可以工作但是自动创建的 ZERO CHECK 和 ALL BUILD 项目默认设置为使用 MBCS 尽管我希望它们使用 Unicode 字符集我确
NameError：名称“raw_input”未定义[重复]

这个问题在这里已经有答案了我是一名七年级程序员所以我可能在这个程序中遗漏了很多东西但是对于我的编码俱乐部我的老师要求我们猜数字游戏我对这个主题的了解非常有限因为我只上过四节课不管怎样当我在 Python IDLE 3 5 中
在编译时检测 typedef（模板元编程）

我目前正在做一些模板元编程就我而言我可以处理任何可迭代类型即任何类型typedef foo const iterator以同样的方式存在我试图为此使用新的 C 11 模板元编程但是我找不到检测某种类型是否丢失的方法因为我还需
Delphi 窗体在显示时总是会触发 OnResize 吗？

如果我创建一个新的 Delphi 表单挂钩其 OnResize 事件并运行该应用程序则在显示窗口之前会触发 OnResize 我不知道对于任何窗口来说这种情况是否总是会发生对于熟悉 Windows API 的人来说我已将其追溯到
如何在本地重现 Jest“网络错误”-浮动错误

当我偶尔在管道上运行测试时我会收到不同文件的网络错误因为axios要求尽管有时我根本没有收到错误但由于某种原因无论我做什么我都无法在本地得到该错误我使用相同的节点版本v12 16 1 我尝试将 testTimeout 减少到
如何根据给定的过滤器返回并获取对象属性的总和？

我有以下对象 var data Name ABC Dept First FY 2016 Quarter 1 Month April Total 100 Name ABC Dept Second FY 2017 Quarter 2 Month
隐藏/显示切换具有相同类名的单独 div

我有一个 UL 列表每个 LI 都有一个隐藏的 DIV 以及一个显示隐藏 DIV 的更多信息链接但是单击此按钮也会显示所有其他 LI 的隐藏 DIV 我怎样才能只隐藏显示 LI 中的 DIV 而不显示所有其他隐藏的 DIV 如果
连接两个表并保存到第三个sql

我想加入两张桌子 TableA wordA primarykey countA abc 25 abcd 29 abcde 45 TableB wordB primarykey countB ab
Spark 2.0：4 行。 IllegalArgumentException：界限必须为正

我正在 Amazon EMR 5 0 上的 Spark 2 0 上尝试一个超级简单的测试程序 from pyspark sql types import Row from pyspark sql types import import py

Spark 2.0：4 行。 IllegalArgumentException：界限必须为正

Spark 2.0：4 行。 IllegalArgumentException：界限必须为正 的相关文章

随机推荐

热门标签

Spark 2.0：4 行。 IllegalArgumentException：界限必须为正的相关文章