Py4JJavaError：调用 o1670.collectToPython 时发生错误

2023-11-26

我正在尝试将 Spark RDD 转换为 Pandas DataFrame。

我使用 csv 文件作为示例。该文件有 10 以下是前 3 行：

“可堆叠储物架的 Eldon 底座，铂金”，Muhammed MacIntyre，3，-213.25,38.94,35，努勒维特，存储和组织，0.8

“1.7 立方英尺紧凑型“立方体”办公冰箱”，Barry French，293,457.81,208.16,68.02，努勒维特，电器，0.58

“Cardinal Slant-D� 环形活页夹，大规格乙烯基”，Barry French，293,46.71,8.69,2.99，努勒维特，活页夹和活页夹配件，0.39

我的代码在这里：

import pandas as pd
import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("HelloWorld").getOrCreate()
sc = spark.sparkContext


from pyspark.sql.types import StructType
from pyspark.sql.types import StructField
from pyspark.sql.types import StringType
from pyspark.sql.context import SQLContext

schema = StructType([StructField(str(i), StringType(), True) for i in range(10)])

text = sc.textFile('data_53000kb.csv')
text = text.map(lambda x: [c.strip() for c in x.split(',')])
df = spark.createDataFrame(text, schema)
df.toPandas()

此时我收到以下错误：

Py4JJavaError: An error occurred while calling o1670.collectToPython.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 40.0 failed 1 times, most recent failure: Lost task 0.0 in stage 40.0 (TID 72, localhost, executor driver): java.net.SocketException: Connection reset by peer: socket write error
    at java.net.SocketOutputStream.socketWrite0(Native Method)
    at java.net.SocketOutputStream.socketWrite(Unknown Source)
    at java.net.SocketOutputStream.write(Unknown Source)
    at java.io.BufferedOutputStream.flushBuffer(Unknown Source)
    at java.io.BufferedOutputStream.write(Unknown Source)
    at java.io.DataOutputStream.write(Unknown Source)
    at java.io.FilterOutputStream.write(Unknown Source)
    at org.apache.spark.api.python.PythonRDD$.writeUTF(PythonRDD.scala:394)
    at org.apache.spark.api.python.PythonRDD$.org$apache$spark$api$python$PythonRDD$$write$1(PythonRDD.scala:214)
    at org.apache.spark.api.python.PythonRDD$$anonfun$writeIteratorToStream$1.apply(PythonRDD.scala:224)
    at org.apache.spark.api.python.PythonRDD$$anonfun$writeIteratorToStream$1.apply(PythonRDD.scala:224)
    at scala.collection.Iterator$class.foreach(Iterator.scala:891)
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1334)
    at org.apache.spark.api.python.PythonRDD$.writeIteratorToStream(PythonRDD.scala:224)
    at org.apache.spark.api.python.PythonRunner$$anon$2.writeIteratorToStream(PythonRunner.scala:561)
    at org.apache.spark.api.python.BasePythonRunner$WriterThread$$anonfun$run$1.apply(PythonRunner.scala:346)
    at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1945)
    at org.apache.spark.api.python.BasePythonRunner$WriterThread.run(PythonRunner.scala:195)

Driver stacktrace:
    at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1891)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1879)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1878)
    at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
    at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
    at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1878)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:927)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:927)
    at scala.Option.foreach(Option.scala:257)
    at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:927)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:2112)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2061)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2050)
    at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49)
    at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:738)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2061)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2082)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2101)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2126)
    at org.apache.spark.rdd.RDD$$anonfun$collect$1.apply(RDD.scala:990)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:385)
    at org.apache.spark.rdd.RDD.collect(RDD.scala:989)
    at org.apache.spark.sql.execution.SparkPlan.executeCollect(SparkPlan.scala:299)
    at org.apache.spark.sql.Dataset$$anonfun$collectToPython$1.apply(Dataset.scala:3263)
    at org.apache.spark.sql.Dataset$$anonfun$collectToPython$1.apply(Dataset.scala:3260)
    at org.apache.spark.sql.Dataset$$anonfun$52.apply(Dataset.scala:3370)
    at org.apache.spark.sql.execution.SQLExecution$$anonfun$withNewExecutionId$1.apply(SQLExecution.scala:80)
    at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:127)
    at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:75)
    at org.apache.spark.sql.Dataset.withAction(Dataset.scala:3369)
    at org.apache.spark.sql.Dataset.collectToPython(Dataset.scala:3260)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
    at java.lang.reflect.Method.invoke(Unknown Source)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:238)
    at java.lang.Thread.run(Unknown Source)
Caused by: java.net.SocketException: Connection reset by peer: socket write error
    at java.net.SocketOutputStream.socketWrite0(Native Method)
    at java.net.SocketOutputStream.socketWrite(Unknown Source)
    at java.net.SocketOutputStream.write(Unknown Source)
    at java.io.BufferedOutputStream.flushBuffer(Unknown Source)
    at java.io.BufferedOutputStream.write(Unknown Source)
    at java.io.DataOutputStream.write(Unknown Source)
    at java.io.FilterOutputStream.write(Unknown Source)
    at org.apache.spark.api.python.PythonRDD$.writeUTF(PythonRDD.scala:394)
    at org.apache.spark.api.python.PythonRDD$.org$apache$spark$api$python$PythonRDD$$write$1(PythonRDD.scala:214)
    at org.apache.spark.api.python.PythonRDD$$anonfun$writeIteratorToStream$1.apply(PythonRDD.scala:224)
    at org.apache.spark.api.python.PythonRDD$$anonfun$writeIteratorToStream$1.apply(PythonRDD.scala:224)
    at scala.collection.Iterator$class.foreach(Iterator.scala:891)
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1334)
    at org.apache.spark.api.python.PythonRDD$.writeIteratorToStream(PythonRDD.scala:224)
    at org.apache.spark.api.python.PythonRunner$$anon$2.writeIteratorToStream(PythonRunner.scala:561)
    at org.apache.spark.api.python.BasePythonRunner$WriterThread$$anonfun$run$1.apply(PythonRunner.scala:346)
    at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1945)
    at org.apache.spark.api.python.BasePythonRunner$WriterThread.run(PythonRunner.scala:195)

我现在能做什么？

df.toPandas() 将所有数据收集到驱动程序节点，因此这是非常昂贵的操作。还有一个名为 maxResultSize 的 Spark 属性

Spark.driver.maxResultSize (默认 1G) --> 每个 Spark 操作（例如收集）的所有分区的序列化结果总大小限制（以字节为单位）。至少应为 1M，或 0 表示无限制。如果总大小超过此限制，作业将被中止。限制过高可能会导致驱动程序内存不足错误（取决于spark.driver.memory和JVM中对象的内存开销）。设置适当的限制可以保护驱动程序免受内存不足错误的影响。

如果估计的数据大小大于 maxResultSize 给定作业将被中止。这里的目标是保护您的应用程序免受驱动程序丢失的影响，仅此而已。

您可能需要增加 maxResultSize

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

py4j

Py4JJavaError：调用 o1670.collectToPython 时发生错误的相关文章

如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio

随机推荐

从“docker ps”获取容器 ID 的 Shell 命令

我基本上希望实现这两个步骤 1 运行docker镜像 docker run p 80 80 某些图像名称 25 2 现在 docker ps 返回有关容器的完整数据但我只是在寻找容器 ID 3 对其进行一些测试例如 docker exe
jquery颜色动画间歇性地抛出无效的属性值

我正在尝试为 ASP Net 超链接的背景设置动画以在更新面板刷新时进行黄色淡入淡出到目前为止它几乎在所有时间都有效但偶尔会抛出一个 JavaScript 错误无效的属性值它调试到jquery颜色插件代码到这一行 fx elem
为 STL 排序算法定义 < - 运算符重载、函子还是独立函数？

我有一个包含 Widget 类对象的 stl list 它们需要根据 Widget 类中的两个成员进行排序为了使排序工作必须定义一个比较两个 Widget 对象的小于比较器似乎有无数种方法可以做到这一点据我所知人们可以 A 在类中
获取内存上的可用空间

是否可以通过 Android SDK 获取 Android 设备而不是 SD 卡上的可用内存量如果是这样怎么办 this帖子可能很适合您的问题还检查这个线程这里有很多关于SO的信息谷歌搜索了一下这是解决方案位于安卓 git
隐藏超出 DIV 元素的文本

我有一个固定宽度的 DIV 元素其中有一些文本其中没有任何空格供 HTML 解析器自动分成多行文本超出了 DIV 的限制并弄乱了 pgae 有没有办法让超出边界的文本不可见是否可以将其分成多行或者更好地分成多行并在每条折行的末尾
多线程比单线程快吗？

我想检查多线程是否比单线程快然后我在这里做了一个演示 public class ThreadSpeedTest param args public static void main String args System out print
将“C50 型号”转换为“rpart”型号

有没有办法使用rpart plot用于绘制不属于的对象的库rpart 用于制作决策树例如这是经典的rpart and rpart plot正在运行的库 load libraries library rpart library rpart
mysql中什么是复合外键？

在我正在使用的框架的文档中看到这个术语复合外键 yii 什么是复合外键在 mySql 数据库中我的猜测是考虑到两个表之间的关系一个表有一列的名称与另一个表的 id 完全相同免责声明我做了尽职调查并在谷歌上搜索了大约两分钟但
VS 2010 Web 服务项目模板丢失？

这可能是一个愚蠢的问题但当我尝试创建新项目时我找不到 Web 服务应用程序模板您可能需要一个 WCF 服务项目新建项目 gt Visual C 或 Visual Basic gt WCF 服务应用程序
如何在 JSON 中显示带有尾随零的 BigDecimal 数字（而不是字符串）？

在我的表示响应中我有一个 BigDecimal 类型的字段它的值为 2 30 但 json 响应将其显示为 2 3 有没有办法同时显示尾随零而不将其显示为字符串顺便说一句我正在使用杰克逊库 version 2 3 needs to
还有一个“无法加载文件或程序集......或其依赖项之一。系统找不到指定的文件”

我有一个带有 NUnit 测试的 dll 运行良好我将其从 Any CPU 转换为 x86 项目因为我需要跨不同平台可靠地使用 SQLite 因此我需要包含 32 位 System Data SQLite dll 并让所有内容都引用它
像 iPhone 上的地址簿排序一样对 NSString 的 NSArray 进行排序

我有一个字符串数组名称我想像 iPhone 上的地址簿对它们进行排序一样对它们进行排序例如 li gt E 下例如 li gt A 下例如 4li gt 在下有什么建议么您需要对字符串执行不区分变音符号的比较 NSStrin
对卷积神经网络中 1D、2D 和 3D 卷积的直观理解[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案谁能通过示例清楚地解释卷积神经网络深度学习中中 1D 2D 和 3D 卷积之间的区别我想用图片来解释C3D 简而言之卷积方向输出形状很重要一维卷积基础 just 1 计
getView() 返回 null

我基本上有一个AsyncTask 从主运行Activity 填充一个ViewPager在一个片段内我正在膨胀 xml 布局文件来填充ViewPager 问题是我无法获取指向布局内视图 imageview textview 的指针以便我可
Android Deeplink pathPrefix 属性被忽略

我在清单文件中为我的 Android 应用程序定义了一个深层链接
如何在MVC中使用bootstrap modal编辑表格数据？

我在 MVC 视图中有一个表显示员工详细信息我想添加编辑功能但我不想在新页面中打开它而是想使用引导模式来显示它 http twitter github com bootstrap javascript html modals 我认为
在 Swing 应用程序中显示 HTML 表单并与之交互

一个应用程序生成一些HTML 页面应该显示在应用程序本身中 These HTML 页面含有一些forms用户将使用它来输入一些值到目前为止我已经用过文本窗格这使得HTML完美但我不知道如何与表单交互以检索用户输入的值是否可以使用 JT
为什么 File.ReadAllBytes 结果与使用 File.ReadAllText 时不同？

我有一个内容为 test 的文本文件 UTF 8 编码我尝试从该文件中获取字节数组并将其转换为字符串但它包含一个奇怪的字符我使用以下代码 var path C Users Tester Desktop test test txt UT
Java javax.swing.Timer 在新线程上运行吗？

我正在使用 javax swing Timer 来安排和运行事件但它似乎冻结了 GUI 只是想知道这些事件是否在单独的线程上运行或者我是否必须自己执行 Thanks 尽管所有 Timer 使用单个共享线程由第一个执行的 Timer 对
Py4JJavaError：调用 o1670.collectToPython 时发生错误

我正在尝试将 Spark RDD 转换为 Pandas DataFrame 我使用 csv 文件作为示例该文件有 10 以下是前 3 行可堆叠储物架的 Eldon 底座铂金 Muhammed MacIntyre 3 213 25 38

Py4JJavaError：调用 o1670.collectToPython 时发生错误

Py4JJavaError：调用 o1670.collectToPython 时发生错误 的相关文章

随机推荐

热门标签

Py4JJavaError：调用 o1670.collectToPython 时发生错误的相关文章