Spark VectorAssembler 错误 - PySpark 2.3 - Python

2024-04-20

我正在使用 pySpark 2.3.0，并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能。这是较大数据框的子集，其中我只选择了一些数字（双精度数据类型）列：

>>>cols = ['index','host_listings_count','neighbourhood_group_cleansed',\
        'bathrooms','bedrooms','beds','square_feet', 'guests_included',\
        'review_scores_rating']
>>>test = df[cols]
>>>test.take(3)

[行（索引=0，host_listings_count=1， neighbourhood_group_cleansed=无，浴室=1.5，卧室=2.0，床位=3.0，square_feet=无，guests_included=1， review_scores_ rating = 100.0），行（索引= 1，host_listings_count = 1， neighbourhood_group_cleansed=无，浴室=1.5，卧室=2.0，床位=3.0，square_feet=无，guests_included=1， review_scores_ rating = 100.0），行（索引= 2，host_listings_count = 1， neighbourhood_group_cleansed=无，浴室=1.5，卧室=2.0，床位=3.0，square_feet=无，guests_included=1， review_scores_ rating=100.0)]

从上面我看来，这个 Spark 数据框没有任何问题。因此，我创建了如下所示的汇编器并得到了显示的错误。可能出了什么问题？

>>>from pyspark.ml.feature import VectorAssembler
>>>assembler = VectorAssembler(inputCols=cols, outputCol="features")
>>>output = assembler.transform(test)
>>>output.take(3)

Py4JJavaError：调用 o279.collectToPython 时发生错误。： org.apache.spark.SparkException：作业由于阶段失败而中止：阶段 5.0 中的任务 0 失败 1 次，最近一次失败：丢失任务 0.0 在阶段 5.0（TID 10，本地主机，执行器驱动程序）： org.apache.spark.SparkException：无法执行用户定义函数（$anonfun$3：（结构） =>向量）在org.apache.spark.sql.catalyst.expressions.GenerateClass$GenerateIterator.processNext（未知来源）位于 org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43) 在 org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:377) 在 org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:231) 在 org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:225) 在 org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827) 在 org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827) 在 org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 在 org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) 在 org.apache.spark.rdd.RDD.iterator(RDD.scala:287) 处 org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) 在 org.apache.spark.scheduler.Task.run(Task.scala:99) 在 org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 在 java.lang.Thread.run(Thread.java:748) 引起的： org.apache.spark.SparkException：要组装的值不能为空。在 org.apache.spark.ml.feature.VectorAssembler$$anonfun$assemble$1.apply(VectorAssembler.scala:160) 在 org.apache.spark.ml.feature.VectorAssembler$$anonfun$assemble$1.apply(VectorAssembler.scala:143) 在 scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) 在 scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:35) 在 org.apache.spark.ml.feature.VectorAssembler$.assemble(VectorAssembler.scala:143) 在 org.apache.spark.ml.feature.VectorAssembler$$anonfun$3.apply(VectorAssembler.scala:99) 在 org.apache.spark.ml.feature.VectorAssembler$$anonfun$3.apply(VectorAssembler.scala:98) ... 16 更多

驱动程序堆栈跟踪：位于 org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1435) 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1423) 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1422) 在 scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59) 在 scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48) 在 org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1422) 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:802) 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:802) 在 scala.Option.foreach(Option.scala:257) 处 org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:802) 在 org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1650) 在 org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1605) 在 org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1594) 在 org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48) 在 org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:628) 在 org.apache.spark.SparkContext.runJob(SparkContext.scala:1925) 处 org.apache.spark.SparkContext.runJob（SparkContext.scala：1938）在 org.apache.spark.SparkContext.runJob（SparkContext.scala：1951）在 org.apache.spark.sql.execution.SparkPlan.executeTake(SparkPlan.scala:333) 在 org.apache.spark.sql.execution.CollectLimitExec.executeCollect(limit.scala:38) 在 org.apache.spark.sql.Dataset$$anonfun$collectToPython$1.apply$mcI$sp(Dataset.scala:2768) 在 org.apache.spark.sql.Dataset$$anonfun$collectToPython$1.apply(Dataset.scala:2765) 在 org.apache.spark.sql.Dataset$$anonfun$collectToPython$1.apply(Dataset.scala:2765) 在 org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:57) 在 org.apache.spark.sql.Dataset.withNewExecutionId(Dataset.scala:2788) 在 org.apache.spark.sql.Dataset.collectToPython(Dataset.scala:2765) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(本机方法) 处 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 在 java.lang.reflect.Method.invoke(Method.java:498) 处 py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) 在 py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357) 在 py4j.Gateway.invoke(Gateway.java:280) 在 py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) 在 py4j.commands.CallCommand.execute(CallCommand.java:79) 处 py4j.GatewayConnection.run(GatewayConnection.java:214) 在 java.lang.Thread.run(Thread.java:748) 原因： org.apache.spark.SparkException：无法执行用户定义函数（$anonfun$3：（结构） =>向量）在org.apache.spark.sql.catalyst.expressions.GenerateClass$GenerateIterator.processNext（未知来源）位于 org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43) 在 org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:377) 在 org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:231) 在 org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:225) 在 org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827) 在 org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827) 在 org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 在 org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) 在 org.apache.spark.rdd.RDD.iterator(RDD.scala:287) 处 org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) 在 org.apache.spark.scheduler.Task.run(Task.scala:99) 在 org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) ... 1 更多引起者：org.apache.spark.SparkException：值汇编不能为空。在 org.apache.spark.ml.feature.VectorAssembler$$anonfun$assemble$1.apply(VectorAssembler.scala:160) 在 org.apache.spark.ml.feature.VectorAssembler$$anonfun$assemble$1.apply(VectorAssembler.scala:143) 在 scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) 在 scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:35) 在 org.apache.spark.ml.feature.VectorAssembler$.assemble(VectorAssembler.scala:143) 在 org.apache.spark.ml.feature.VectorAssembler$$anonfun$3.apply(VectorAssembler.scala:99) 在 org.apache.spark.ml.feature.VectorAssembler$$anonfun$3.apply(VectorAssembler.scala:98) ... 16 更多

您发布的堆栈跟踪提到问题是由正在组装的列中的空值引起的。

你需要处理null你的价值观cols列。尝试test.fillna(0, subset=cols)在调用转换之前，或者过滤掉这些列中具有空值的行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

Spark VectorAssembler 错误 - PySpark 2.3 - Python 的相关文章

Python lambda 函数没有在 for 循环中正确调用[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 中的 Tkinter 制作一个计算器我使用 for 循环来绘制按钮并且尝试使用 lambda 函数以便仅在按下按钮时调用按钮的操作而不是在程序启动时立即调用然而当我尝试这
以类似字典的方式将新项目添加到某些结构化数组中

我想扩展 numpy 中的结构化数组对象以便我可以轻松添加新元素例如对于一个简单的结构化数组 gt gt gt import numpy as np gt gt gt x np ndarray 2 dtype names A B fo
在 django 中构建动态表单

我正在尝试根据存储在数据库中的字段及其定义动态构建一个表单在我的数据库中我定义了 1 个带有一些标签的复选框和 1 个带有一些标签的文本字段如何根据数据库中的数据在我的视图中动态构建表单 Thanks 以下是我在 EuroDjango
这是我尝试安装 pip3 时得到的结果

这是我尝试安装 pip3 时得到的结果 sudo apt get install python3 pip Reading package lists Done Building dependency tree Reading state i
python: X 服务器上的致命 IO 错误 11（资源暂时不可用）：0.0

我正在尝试读取一些图像稍后打算对它们执行一些任务同时将图像读入内存我想显示动画 gif 图像为此我必须使用线程现在它给出错误 python Fatal IO error 11 Resource temporarily unava
Python - 使用 win32com.client 将 Excel 单元格范围格式化为表格

我正在尝试编写一个函数该函数选择工作表中的所有非空单元格根据内容调整列宽并将其格式化为表格我被困在最后一点这是我当前的代码 import win32com client from win32com client import co
无法将 python 数据框中的列类型从 object 转换为 str

我已经下载了一个csv文件然后将其读取到python dataframe 现在所有4列都有对象类型我想将它们转换为str类型现在dtypes的结果如下 Name object Position Title object Departm
__subclasses__ 没有显示任何内容

我正在实现一个从适当的子类返回对象的函数如果我搬家SubClass from base py 没有出现子类 subclasses 它们必须在同一个文件中吗也许我从来没有直接导入subclass py对Python隐藏子类我能做些什么
Python、cPickle、酸洗 lambda 函数

我必须像这样腌制一组对象 import cPickle as pickle from numpy import sin cos array tmp lambda x sin x cos x test array tmp tmp tmp tm
Emacs：调试Python的方法

我把这个贴在程序员 stackexchange com https softwareengineering stackexchange com questions 29844 emacs methods for debugging pyth
Python 对象属性 - 访问方法

假设我有一个具有某些属性的类在 Pythonic OOP 中如何访问这些属性是最好的就像obj attr 或者也许编写 get 访问器此类事物可接受的命名风格是什么 Edit 您能否详细说明使用单下划线或双前导下划线命名属性的最佳实
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
captureWarnings 设置为 True 不会捕获警告

我想记录所有警告我以为这样的设定captureWarnings to True应该可以解决问题但事实并非如此代码 import logging import warnings from logging handlers import
没有名为 urllib.parse 的模块（我应该如何安装它？）

我正在尝试在 CentOS 7 上运行 REST API 我读到 urllib parse is in Python 3 但我使用的是 Python 2 7 5 所以我不知道如何安装此模块我安装了所有要求但仍然无法运行该项目当我寻找
带回溯的 Dijkstra 算法？

In a 相关主题 https stackoverflow com questions 28333756 finding most efficient path between two nodes in an interval graph
计算素数并附加到列表

我最近开始尝试使用 python 解决 Euler 项目的问题并且在尝试计算素数并将其附加到列表中时遇到了这个障碍我编写了以下代码但我很困惑为什么它在运行时不输出任何内容 import math primes def isPrime
使用 PuLP 进行线性优化，变量附加条件

我必须用 Pull 解决 Python 中的整数线性优化问题我解决了基本问题现在我必须添加额外的约束有人可以帮助我用逻辑指示器添加条件吗逻辑限制是如果 A gt 20 则 B gt 5 这是我的代码 from pulp impor
矩阵求逆 (3,3) python - 硬编码与 numpy.linalg.inv

对于大量矩阵我需要计算定义为的距离度量尽管我确实知道强烈建议不要使用矩阵求逆但我没有找到解决方法因此我尝试通过对矩阵求逆进行硬编码来提高性能因为所有矩阵的大小均为 3 3 我预计这至少会是一个微小的改进但事实并非如此为什么
每行中最后一次出现 True 的索引

我有一个二维数组 a False False False False False True True True True True True True True True True True True True True True True
用于获取有关 SVN 存储库信息的 Python 库？

我正在寻找一个可以从 SVN 存储库中提取至少以下信息的库 not工作副本修订号及其作者和提交消息每个修订版中的更改添加删除修改文件有Python库可以做到这一点吗对于作者和提交消息我可以解析 db revprops 0

随机推荐

如何编写一个函数来测试链接列表是否已排序

我查看了其他帖子但没有找到适合我的查询的很好的解决方案我不想对链接列表进行实际排序我想看看它是否已排序我有一个 C 中的链表问题我被要求编写一个给定链表定义的函数来查看它是否已排序实现函数 isSorted 如果链表中的值按升序
如何在WebKit中调用参数化的javascript函数？

我正在尝试将 2 个参数传递给 javascript 函数这段代码webview loadUrl javascript function to call 没有参数可以正常工作但我无法使用参数这是 javascript 连接点 func
纯文本压缩算法的现状如何？

为了纪念哈特奖 http prize hutter1 net 文本压缩的顶级算法以及每种算法的快速描述是什么注意这个问题的目的是获得压缩算法的描述而不是压缩程序的描述突破边界的压缩器结合了疯狂结果的算法常见的算法包括 The
没有名为 EntityManager 的持久性提供程序

我有我的persistence xml使用相同的名称TopLink在下面META INF目录然后我的代码使用以下方式调用它 EntityManagerFactory emfdb Persistence createEntityManag
Next js 子组件的父路由组件

让我们想象一下我们有admin有几个页面的模块定制 settings account 这些页面中的每一个都应该有一些通用的布局 sidebar 对于标准 React 应用程序我将做下一步来实现应用程序的这一部分我会创建父路线 admin
防止任务窗格在保存期间关闭（异步）

我们使用 OfficeJs REST API 进行加载项开发要使用此 API 需要一个 accesstoken 我们通过调用来请求该 accesstokenOffice mailbox getCallbackTokenAsync isRe
如何在 Python 中对两个列表进行异或？ [复制]

这个问题在这里已经有答案了我有两个列表例如 a hello world b hello world im steve 如果我想创建第三个列表其中仅包含两个列表中都不包含的元素 c im steve 如果元素的顺序很重要我该怎么做我
添加连续颜色渐变图例条以进行绘图

我正在使用以下数据和代码来绘制barplot ddf structure list VAR structure 1 9 Label c aaa bbb ccc ddd eee fff ggg hhh iii class factor VAL
无法将字符串转换为 ZonedDateTime：DateTimeParseException

我尝试将字符串从 JSON 转换为 ZonedDateTime 就像 static String getWatchTime JSONObject aJson JSONObject bJson long difference 0 try St
如何正确使用通过转发引用传递的可调用对象？

我习惯将 lambda 函数和其他可调用函数传递给模板函数并使用它们如下所示 template
Xcode 8 beta 4：构建失败，并显示“以下二进制文件使用不兼容的 Swift 版本：”错误

与新Xcode 8 beta 4我们开始遇到以下错误CopySwiftLibs构建阶段 Effective srcDirs
什么是 EF 默认 ID 命名约定 Code First？

我正在使用 EF 代码优先方法我开始制作映射文件我来自 nihbernate 背景但发现你真的不需要它们除非你需要做一些更改我想知道我的 ID 的命名约定将使用什么那将会Product Id or ProductId Edit
当前上下文中不存在名称“数据库”？

当我尝试使用 WebMatrix 启动我的网站时收到此错误我有一个可以调用的 cs 文件var db Database Open dbase 我的项目中有一个名为 dbase 的数据库我没有 web config 文件也没有使用 We
仅保留 DataFrame 中有关某些字段的重复项

我有这个火花数据框 ID ID2 Number Name Opening Hour Closing Hour ALT QWA 6 null 08 59 00 23 30 00 ALT AUTRE 2 null 08 58 00 23 29
R 中的圆形堆积条形图

我发现了这个很棒且相对简单的包可以创建漂亮的极坐标形式的归一化堆积条形图like so http chrisladroue com wp content uploads 2012 02 polarHistogramFudged png 我希
SQL Azure 是否支持“FOR XML”（RAW、AUTO、PATH）

MS SQL Server 支持使用 FOR XML RAW AUTO PATH 提取关系数据 SQL Azure 支持此功能吗如果没有有没有人尝试过解决方法提前谢谢你的帮助是的我用FOR XML PATH and FOR XML
C# 中的多行字符串文字

有没有一种简单的方法可以在 C 中创建多行字符串文字这是我现在所拥有的 string query SELECT foo bar FROM table WHERE id 42 我知道 PHP 有 lt lt
颤动中闪闪发光的动画

我想在flutter中制作一个闪闪发光的动画如何在颤振中做到这一点我建议采用定制油漆方法我的 awswer 是高度可定制的我只更改innerOuterRadiusRatio 和速度您可以更改颜色或不透明度星形的边数旋转 ang
检索从扭曲图像中获取的像素的原始坐标

我有四个角从源图像 src vertices 0 corners upperLeft src vertices 1 corners upperRight src vertices 2 corners downLeft src vertice
Spark VectorAssembler 错误 - PySpark 2.3 - Python

我正在使用 pySpark 2 3 0 并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能这是较大数据框的子集其中我只选择了一些数字双精度数据类型列 gt gt gt cols index ho

Spark VectorAssembler 错误 - PySpark 2.3 - Python

Spark VectorAssembler 错误 - PySpark 2.3 - Python 的相关文章

随机推荐

热门标签