无法使用 Scala 在 Apache Spark 中执行用户定义的函数

2024-01-22

我有以下数据框：

+---------------+-----------+-------------+--------+--------+--------+--------+------+-----+
|   time_stamp_0|sender_ip_1|receiver_ip_2|s_port_3|r_port_4|acknum_5|winnum_6| len_7|count|
+---------------+-----------+-------------+--------+--------+--------+--------+------+-----+
|06:36:16.293711|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58| 65161|  130|
|06:36:16.293729|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58| 65913|  130|
|06:36:16.293743|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|131073|  130|
|06:36:16.293765|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|196233|  130|
|06:36:16.293783|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|196985|  130|
|06:36:16.293798|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|262145|  130|
|06:36:16.293820|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|327305|  130|
|06:36:16.293837|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|328057|  130|
|06:36:16.293851|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|393217|  130|
|06:36:16.293873|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|458377|  130|
|06:36:16.293890|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|459129|  130|
|06:36:16.293904|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|524289|  130|
|06:36:16.293926|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|589449|  130|
|06:36:16.293942|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|590201|  130|
|06:36:16.293956|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|655361|  130|
|06:36:16.293977|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|720521|  130|
|06:36:16.293994|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|721273|  130|
|06:36:16.294007|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|786433|  130|
|06:36:16.294028|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|851593|  130|
|06:36:16.294045|   10.0.0.1|     10.0.0.2|   55518|    5001|       0|      58|852345|  130|
+---------------+-----------+-------------+--------+--------+--------+--------+------+-----+
only showing top 20 rows

我必须向我的产品添加功能和标签dataframe来预测计数值。但是，当我运行代码时，我会看到以下错误：

Failed to execute user defined function(anonfun$15: (int, int, string, string, int, int, int, int, int) => vector)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)

I also cast(IntegerType)我的所有功能，但再次出现错误。这是我的代码：

val Frist_Dataframe = sqlContext.createDataFrame(Row_Dstream_Train, customSchema)

       val toVec9 = udf[Vector, Int, Int, String, String, Int, Int, Int, Int, Int] { (a, b, c, d, e, f, g, h, i) =>
              val e3 = c match {
                case "10.0.0.1" => 1
                case "10.0.0.2" => 2
                case "10.0.0.3" => 3
              }

              val e4 = d match {
                case "10.0.0.1" => 1
                case "10.0.0.2" => 2
                case "10.0.0.3" => 3
              }
              Vectors.dense(a, b, e3, e4, e, f, g, h, i)
            }

            val final_df = Dataframe.withColumn(
              "features",
              toVec9(
                // casting into Timestamp to parse the string, and then into Int
                $"time_stamp_0".cast(TimestampType).cast(IntegerType),
                $"count".cast(IntegerType),
                $"sender_ip_1",
                $"receiver_ip_2",
                $"s_port_3".cast(IntegerType),
                $"r_port_4".cast(IntegerType),
                $"acknum_5".cast(IntegerType),
                $"winnum_6".cast(IntegerType),
                $"len_7".cast(IntegerType)
              )
            ).withColumn("label", (Dataframe("count"))).select("features", "label")

Final_df.show()

val trainingTest = final_df.randomSplit(Array(0.8, 0.2))
val TrainingDF = trainingTest(0).toDF()
val TestingDF=trainingTest(1).toDF()
TrainingDF.show()
TestingDF.show()

我的依赖项还有：

libraryDependencies ++= Seq(
  "co.theasi" %% "plotly" % "0.2.0",
  "org.apache.spark" %% "spark-core" % "2.1.1",
  "org.apache.spark" %% "spark-sql" % "2.1.1",
  "org.apache.spark" %% "spark-hive" % "2.1.1",
  "org.apache.spark" %% "spark-streaming" % "2.1.1",
  "org.apache.spark" %% "spark-mllib" % "2.1.1"
)

最有趣的一点是，如果我改变我所有的cast(IntegerType) to cast(TimestampType).cast(IntegerType)在我的代码的最后一部分，错误消失，输出将如下所示：

+--------+-----+
|features|label|
+--------+-----+
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
|    null|  130|
+--------+-----+

UPDATE：应用@Ramesh Maharjan 解决方案后，我的数据帧的结果运行良好，但是，每当我尝试将 Final_df 数据帧拆分为训练和测试时，结果如下所示，并且我仍然遇到相同的空行问题。

+--------------------+-----+
|            features|label|
+--------------------+-----+
|                null|  130|
|                null|  130|
|                null|  130|
|                null|  130|
|                null|  130|
|                null|  130|
|                null|  130|
|                null|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
|[1.497587776E9,13...|  130|
+--------------------+-----+

你能帮助我吗？

我没看到count column在您的问题代码中生成。除了count专栏@Shankar的回答应该会给你你想要的结果。

以下错误是由于错误的定义造成的udf@Shankar 在他的回答中更正了该函数。

Failed to execute user defined function(anonfun$15: (int, int, string, string, int, int, int, int, int) => vector)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)

以下错误是由于version不匹配spark-mllib library with spark-core library and spark-sql library。它们都应该是相同的版本。

error: Caused by: org.apache.spark.SparkException: Failed to execute user defined function(anonfun$15: (int, int, string, string, int, int, int, int, int) => vector) at org.apache.spark.sql.catalyst.expressions.GeneratedClass$Gen‌eratedIterator.proce‌ssNext(Unknown Source)

我希望解释清楚，并希望您的问题尽快得到解决。

Edited

你还没有改变udf按照@Shankar 的建议运行。添加.trim我也可以看到一些空间

val toVec9 = udf ((a: Int, b: Int, c: String, d: String, e: Int, f: Int, g: Int, h: Int, i: Int) =>
  {
  val e3 = c.trim match {
    case "10.0.0.1" => 1
    case "10.0.0.2" => 2
    case "10.0.0.3" => 3
  }
  val e4 = d.trim match {
    case "10.0.0.1" => 1
    case "10.0.0.2" => 2
    case "10.0.0.3" => 3
  }
  Vectors.dense(a, b, e3, e4, e, f, g, h, i)
})

看看你的依赖关系，你正在使用%%这告诉sbt下载dependencies包装有scala您系统中的版本。这应该没问题，但由于您仍然收到错误，我想更改dependencies as

libraryDependencies ++= Seq(
  "co.theasi" %% "plotly" % "0.2.0",
  "org.apache.spark" % "spark-core_2.11" % "2.1.1",
  "org.apache.spark" % "spark-sql_2.11" % "2.1.1",
  "org.apache.spark" %% "spark-hive" % "2.1.1",
  "org.apache.spark" % "spark-streaming_2.11" % "2.1.1",
  "org.apache.spark" % "spark-mllib_2.11" % "2.1.1"

)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

无法使用 Scala 在 Apache Spark 中执行用户定义的函数的相关文章

Scala 中的 Apply 和 lambda

我有下面的代码 scala gt val builder new StringBuilder foo bar baz builder StringBuilder foo bar baz scala gt 0 until 5 foreach
Scala：将整个列表的 Either 与每个元素的 Either 组合

我有一个 Either 列表它代表错误 type ErrorType List String type FailFast A Either ErrorType A import cats syntax either val l List
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
Scala 功能设计模式目录

一周以来我一直在阅读 Scala 编程作者一步一步地介绍了该语言的元素但我仍然很困惑何时使用演员闭包柯里化等功能性的东西我正在寻找功能结构的典型用例或最佳实践的目录我并不是说在 Scala 中重新实现像 GoF 这样的众所周知的
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
创建自定义 scala 集合，其中映射默认返回自定义集合？

特质TraversableLike A Repr 允许人们在其中进行收藏some函数将返回一个Repr 而其他人则继续返回类型参数That在功能上有没有办法定义一个CustomCollection A 其中函数如map 其他的默认That
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
理解 scala 的 _ 与 Any/Nothing

如果一个类具有协变类型参数例如Iterable A http www scala lang org archives downloads distrib files nightly docs 2 10 1 library index ht
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
Jack（Java Android 编译器套件）将如何影响 Scala 开发人员

现在随着公告Jack https source android com source jack html谷歌阐明了 Java 与 Android 相关的可预见的未来但这对 Scala 和其他基于 JVM 的语言开发人员有何影响尤其 Sc
xsbt 插件 1.0.0-M7 和 scalatra

我尝试在我的 scalatra 项目中将 xsbt 插件升级到 1 0 0 M7 但 scalatra 似乎与此版本不兼容当我尝试重新加载项目时出现以下错误我尝试过 scalatra 2 3 0 版本问候德斯 java lang
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
比较 javascript 元素和 scala 变量的 Play 框架 Twirl 模板

如下面的代码示例所示我想比较 scala 辅助元素内的 javascript 元素然而即使存在元素 abcde 它也始终返回 false 除了使用标签之外如何获取 scala 辅助元素内的 javascript 值 appSeq S
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
Scala 2.8 中 <:<、<%< 和 =:= 的含义是什么？它们的文档在哪里？

我可以在 API 文档中看到Predef https scala lang org files archive api 2 8 2 scala Predef 24 html它们是通用函数类型 From gt To 的子类但仅此而已嗯什么
Scala apply 方法调用，因为括号与隐式参数冲突

Cay Horstmann 的书 Scala for the Impressive 中有一段关于 apply 方法的注释有时表示法会与另一个 Scala 功能发生冲突隐式参数例如表达式 Bonjour sorted 3 产生错误
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
在 AKKA 中，对主管调用 shutdown 是否会停止其监督的所有参与者？

假设我有一位主管连接了 2 位演员当我的应用程序关闭时我想优雅地关闭这些参与者调用supervisor shutdown 是否会停止所有参与者还是我仍然需要手动停止我的参与者 gracias 阻止主管 https github co

随机推荐

Checkstyle：尾随空格正则表达式问题

我正在将 Checkstyle 添加到我的项目中但检测空格的规则不够好 RegexpSingleline lt S s 它检测尾随空格并仅忽略带有空格的行它应该允许缩进的空白行它在大多数情况下工作正常但它抱怨使用空行的 javado
适用于多种设备的演示技术

我们的应用程序应该为多种设备提供服务从简单的智能手机 iPhone 触摸屏到普通浏览器应用程序是分层的因此我们可以重用业务层和持久层然而我们也想对单个表示层进行编程例如我知道 ASP NET 根据浏览器类型生成不同的 html
在 Mac (OS High Sierra) 上安装 Flask-mysqldb (python 3) 时出错

在按照在线教程创建 Flask Web 应用程序时我尝试使用以下命令安装 Flask mysqldbsudo pip3 install flask mysqldb 这会导致安装错误该错误似乎源于依赖性问题错误信息如下Command u
如何在Python中根据椭圆的一般方程绘制椭圆

我知道matplotlib可以根据椭圆的中心半长轴长度半短轴长度以及x轴和长轴之间的角度来绘制椭圆但是有没有简单的方法可以像Matlab一样根据椭圆的一般方程绘制椭圆 ezplot 3 x 2 2 x y 4 y 2 5 我找到了一种
如何测试文件列表是否存在？

我有一个列出文件名的文件每个文件名都在自己的行上我想测试每个文件名是否存在于特定目录中例如文件的一些示例行可能是 mshta dll foobar dll somethingelse dll 我感兴趣的目录是X Windows Sy
在 Azure 角色中使用 SmtpClient 时出现“不支持请求的功能”异常

在 Azure Web 或辅助角色中使用 SmtpClient 时出现异常我创建了一个控制台应用程序通过 RDP 在角色虚拟机上手动运行以进行重现 using System using System Net using System N
使用节点和角度应用程序刷新页面时获取 404 页面

我是新来的Angular 我尝试使用创建 CRUD 操作Nodejs and Angular 我在用Nodejs and Express对于支持和Angular对于前端当我使用 routerLink 在页面上导航时它工作正常但是当我在
具有递归可变参数函数的字符串流？

我希望能够使用 ostringstream 将多个不同的参数组合成一个字符串这样我就可以记录生成的单个字符串而不会出现任何随机问题我到目前为止 template
OAuth 2.0 - 客户端秘密是否必须是“秘密”？

我只是好奇我需要保留客户端秘密来自 Google FaceBook 其他 OAuth 2 0 提供商的秘密地方据我所知一旦我指定了非常严格的回调网址就可以使用客户端秘密参数完成很少的事情例如将秘密密钥提交到 github
从 jck 密钥存储导出密钥

我们有一个包含秘密密钥的 jck 密钥库 jceks 格式它是使用 keytool 命令生成的 keytool genseckey alias mykey keyalg AES keysize 256 storetype jceks ke
django - HttpRequest 对象没有属性“会话”

我似乎无法让会话正常工作 Django 抱怨 HttpRequest 对象没有名为 session 的属性在文档中明确指出如果您启用了中间件并且在安装的应用程序中启用了 django contrib sessions 那么您就可以开始
RPG对话引擎/结构[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我一直对 RPG 角色扮演游戏中涉及的数据结构感兴趣我特别对对话和基于事件的行动感到好奇例如如果我在某个时刻接近 NPCx在游
Shiny DT::renderDataTable 的“全选”复选框

我想要一个复选框用于选择 Shiny 中标准 DT renderDataTable 中显示的所有行显示是关键因为您应用的过滤器和整个数据表之间存在差异是否有任何 DT 扩展可以做到这一点我的编码技能很基础因此我无法编写等效的 J
libgdx 中的多色文本

我发现夜间构建中的 LibGDX 中有一个新组件 TextArea这是scene2d ui包裹拥有这样的组件真是太好了非常易于使用但我缺少的是对多色文本的一些支持我想用不同的颜色突出显示文本中的一些关键字但我不知道如何使用当前的
@Autowired 和 @Service 从控制器工作，但不从不同的包工作

我需要帮助理解背后的概念 Autowired and Service 我有一个 DAO 定义为 Service和控制器 Autowired一切看起来都很好但是我使用相同的 Autowired在不同的班级那么它不起作用 Example
从 Google 表格中的另一张表格左侧进行 VLOOKUP

我有一个电子表格该电子表格是在 Google 表格中我自己的电子表格外部管理的我正在尝试将数据从外部工作表提取到我的工作表中以便我有一个集中位置来显示与我相关的任务项这是我认为可行的公式 VLOOKUP My Name IMPORT
通过索引访问字符串枚举

我在 C 中有一个枚举索引需要用字符串表示 String 类型的 Swift 枚举如何通过整数索引使用我想将枚举复制到 Swift 将类型设置为字符串并定义所有原始值以显示文本然后使用 C 枚举值提取 Swift String 枚举的
了解 constexpr 变量初始化的完整表达式

下面的程序编译成功 https godbolt org z 3c1xsh6oz与所有主要编译器 struct S constexpr S const S constexpr S default int main void S s1 cons
Scipy的solve_ivp函数的文档中字母k是什么意思？

Solve ivp 是 Scipy 中的初始值问题求解器函数简单来说 scipy integrate solve ivp 乐趣 t span y0 方法 RK45 t eval 无 dense output False 事件无向量化
无法使用 Scala 在 Apache Spark 中执行用户定义的函数

我有以下数据框 time stamp 0 sender ip 1 receiver ip 2 s port 3 r port 4 acknum 5 winnum 6 len 7 count 06 36 16 293711 10 0 0 1

无法使用 Scala 在 Apache Spark 中执行用户定义的函数

无法使用 Scala 在 Apache Spark 中执行用户定义的函数 的相关文章

随机推荐

热门标签

无法使用 Scala 在 Apache Spark 中执行用户定义的函数的相关文章