Spark：“无法使用 UnspecifiedFrame。这应该在分析过程中进行转换。请提交错误报告”

2024-03-29

Spark 2.3.0 与 Scala 2.11。我正在尝试编写一个自定义聚合器并在每个窗口函数上运行它这些文档 https://spark.apache.org/docs/latest/sql-programming-guide.html#type-safe-user-defined-aggregate-functions但我收到标题中的错误。这是一个精简的示例。这是作为 FunSuite 测试编写的。

我知道错误消息说要提交错误报告，但这是一个几乎直接从文档中提取的简单示例，我想知道我的代码中是否有某些内容导致了错误。我想知道使用集合类型作为缓冲区是否不受支持或不寻常。我在 Stack Overflow 上没有发现任何其他与此错误相关的问题。

package com.foobar;

import com.holdenkarau.spark.testing._
import org.apache.spark.sql._
import org.apache.spark.sql.catalyst.encoders.ExpressionEncoder
import org.apache.spark.sql.expressions.{Aggregator, Window}
import org.scalatest.FunSuite
import org.slf4j.LoggerFactory

import scala.collection.mutable.ListBuffer

case class Foo(ID:Long, RANK:Int)

class Example extends FunSuite with DataFrameSuiteBase {
  test("example") {
    val data = Seq(
      Foo(5555, 1),
      Foo(5555, 2),
      Foo(8888, 1),
      Foo(8888, 2)
    )
    import spark.implicits._

    val df = sc.parallelize(data).toDF

    val w = Window.partitionBy("ID").orderBy("RANK")

    // The three types are: input, buffer, and output.
    object AggregateFoos extends Aggregator[Foo, ListBuffer[Foo], Boolean] {
      // A zero value for this aggregation. Should satisfy the property that any b + zero = b
      override def zero: ListBuffer[Foo] = new ListBuffer[Foo]()

      override def reduce(b: ListBuffer[Foo], a: Foo): ListBuffer[Foo] = {
        b += a
      }

      // Merge two intermediate values
      override def merge(b1: ListBuffer[Foo], b2: ListBuffer[Foo]): ListBuffer[Foo] = {
        (b1 ++ b2).sortBy(b => b.RANK)
      }

      // Transform the output of the reduction
      override def finish(reduction: ListBuffer[Foo]): Boolean = {
        true // in real life there would be logic here
      }

      // Specifies the Encoder for the intermediate value type
      override def bufferEncoder: Encoder[ListBuffer[Foo]] = {
        ExpressionEncoder()
      }

      // Specifies the Encoder for the final output value type
      override def outputEncoder: Encoder[Boolean] = {
        ExpressionEncoder()
      }
    }

    val agg = AggregateFoos.toColumn.name("agg")

    df.select(df.col("*"), agg.over(w).as("agg")).show(false)
  }
}

这是错误消息：

org.apache.spark.sql.AnalysisException：无法解析'（PARTITION BYID订购依据RANK由于数据类型不匹配，ASC NULLS FIRST unspecifiedframe$())'：无法使用 UnspecifiedFrame。这应该在分析过程中进行转换。请提交错误报告。;;

以下是整个异常情况。

org.apache.spark.sql.AnalysisException: cannot resolve '(PARTITION BY `ID` ORDER BY `RANK` ASC NULLS FIRST unspecifiedframe$())' due to data type mismatch: Cannot use an UnspecifiedFrame. This should have been converted during analysis. Please file a bug report.;;
'Aggregate [ID#2L, RANK#3, aggregatefoos(AggregateFoos$@592e7718, None, None, None, mapobjects(MapObjects_loopValue0, MapObjects_loopIsNull0, ObjectType(class Foo), if (isnull(lambdavariable(MapObjects_loopValue0, MapObjects_loopIsNull0, ObjectType(class Foo), true))) null else named_struct(ID, assertnotnull(lambdavariable(MapObjects_loopValue0, MapObjects_loopIsNull0, ObjectType(class Foo), true)).ID, RANK, assertnotnull(lambdavariable(MapObjects_loopValue0, MapObjects_loopIsNull0, ObjectType(class Foo), true)).RANK), input[0, scala.collection.mutable.ListBuffer, true], None) AS value#9, mapobjects(MapObjects_loopValue1, MapObjects_loopIsNull1, StructField(ID,LongType,false), StructField(RANK,IntegerType,false), if (isnull(lambdavariable(MapObjects_loopValue1, MapObjects_loopIsNull1, StructField(ID,LongType,false), StructField(RANK,IntegerType,false), true))) null else newInstance(class Foo), input[0, array<struct<ID:bigint,RANK:int>>, true], Some(class scala.collection.mutable.ListBuffer)), input[0, boolean, false] AS value#8, BooleanType, false, 0, 0) windowspecdefinition(ID#2L, RANK#3 ASC NULLS FIRST, unspecifiedframe$()) AS agg#14]
+- AnalysisBarrier
      +- LocalRelation [ID#2L, RANK#3]

  at org.apache.spark.sql.catalyst.analysis.package$AnalysisErrorAt.failAnalysis(package.scala:42)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$2.applyOrElse(CheckAnalysis.scala:93)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$2.applyOrElse(CheckAnalysis.scala:85)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformUp$1.apply(TreeNode.scala:289)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformUp$1.apply(TreeNode.scala:289)
  at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformUp(TreeNode.scala:288)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scala:286)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scala:286)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$4.apply(TreeNode.scala:306)
  at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:187)
  at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:304)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformUp(TreeNode.scala:286)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scala:286)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scala:286)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$4.apply(TreeNode.scala:306)
  at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:187)
  at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:304)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformUp(TreeNode.scala:286)
  at org.apache.spark.sql.catalyst.plans.QueryPlan$$anonfun$transformExpressionsUp$1.apply(QueryPlan.scala:95)
  at org.apache.spark.sql.catalyst.plans.QueryPlan$$anonfun$transformExpressionsUp$1.apply(QueryPlan.scala:95)
  at org.apache.spark.sql.catalyst.plans.QueryPlan$$anonfun$1.apply(QueryPlan.scala:107)
  at org.apache.spark.sql.catalyst.plans.QueryPlan$$anonfun$1.apply(QueryPlan.scala:107)
  at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)
  at org.apache.spark.sql.catalyst.plans.QueryPlan.transformExpression$1(QueryPlan.scala:106)
  at org.apache.spark.sql.catalyst.plans.QueryPlan.org$apache$spark$sql$catalyst$plans$QueryPlan$$recursiveTransform$1(QueryPlan.scala:118)
  at org.apache.spark.sql.catalyst.plans.QueryPlan$$anonfun$org$apache$spark$sql$catalyst$plans$QueryPlan$$recursiveTransform$1$1.apply(QueryPlan.scala:122)
  at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
  at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
  at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
  at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
  at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
  at scala.collection.AbstractTraversable.map(Traversable.scala:104)
  at org.apache.spark.sql.catalyst.plans.QueryPlan.org$apache$spark$sql$catalyst$plans$QueryPlan$$recursiveTransform$1(QueryPlan.scala:122)
  at org.apache.spark.sql.catalyst.plans.QueryPlan$$anonfun$2.apply(QueryPlan.scala:127)
  at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:187)
  at org.apache.spark.sql.catalyst.plans.QueryPlan.mapExpressions(QueryPlan.scala:127)
  at org.apache.spark.sql.catalyst.plans.QueryPlan.transformExpressionsUp(QueryPlan.scala:95)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1.apply(CheckAnalysis.scala:85)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1.apply(CheckAnalysis.scala:80)
  at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:127)
  at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$class.checkAnalysis(CheckAnalysis.scala:80)
  at org.apache.spark.sql.catalyst.analysis.Analyzer.checkAnalysis(Analyzer.scala:92)
  at org.apache.spark.sql.catalyst.analysis.Analyzer.executeAndCheck(Analyzer.scala:105)
  at org.apache.spark.sql.execution.QueryExecution.analyzed$lzycompute(QueryExecution.scala:57)
  at org.apache.spark.sql.execution.QueryExecution.analyzed(QueryExecution.scala:55)
  at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:47)
  at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:74)
  at org.apache.spark.sql.Dataset.org$apache$spark$sql$Dataset$$withPlan(Dataset.scala:3296)
  at org.apache.spark.sql.Dataset.select(Dataset.scala:1307)
  ... 49 elided

据我所知，这是某种内部 Spark 错误，我不知所措，感谢任何帮助。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark：“无法使用 UnspecifiedFrame。这应该在分析过程中进行转换。请提交错误报告” 的相关文章

文本溢出：省略号显示不同的字符

我这里遇到了一些 CSS 问题看这张图片 https www flickr com photos 125543025 N07 saved 1 在此图像中我为文本 INTENSE TRAINING 添加了 CSS 样式 sample st
我们什么时候应该在 Django 中使用“db_index=True”？

当我们应该定义db index True在模型字段上我正在尝试优化应用程序并且我想了解更多信息db index 什么情况下我们应该使用它文档说使用db index True在模型字段上用于加速查找但在存储和内存方面略有缺点我们应该使
如何制作过期/签名视频嵌入网址

我是新来的正在学习网络开发等等我只知道如何将我的视频嵌入网站中任何菜鸟都可以轻松获得源代码他们也可以嵌入它但在许多网站中视频 src 均使用重定向器链接进行编码例如它会在一段时间后过期在本例中是一天我了解到这是一个签名网
使用 QtWebEngine 将 C++ 对象暴露给 Qt 中的 Javascript

使用 QtWebkit 可以通过以下方式将 C 对象公开给 JavascriptQWebFrame addToJavaScriptWindowObject如中所述https stackoverflow com a 20685002 5959
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code
ASP.NET Core MVC 视图组件搜索路径

在此处的文档中 https learn microsoft com en us aspnet core mvc views view components view aspnetcore 2 2 https learn microsoft
xsi:type 属性搞乱了 C# XML 反序列化

我使用 XSD exe 根据 XML 架构 xsd 文件自动生成 C 对象我正在反序列化 OpenCover 输出但其中一个部分类未正确生成这是导致异常的行
一些基本的 PHP 问题 [已关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我只是有一些基本的 php 问题来加深我对学习的理解但我找不到简单的答案我有一个 php ajax 应用程序它生成 mysql
If else 在 Web 网格列中

如何在 webgrid 列中添加条件 if else grid GetHtml tableStyle table table bordered columns grid Columns grid Column RealName Name g
View.post()，以及当Runnables被执行时

我最初的问题是需要知道我的根的高度和宽度View这样我就可以进行程序化的布局更改就我的目的而言我不一定需要在onCreate 对于我来说以编程方式添加我的孩子就足够了View根布局完成后因此我很乐意使用onWindowFocusCh
Azure Functions 计时器触发器线程安全

我想知道是否有人知道如果您在 Azure 函数上设置了 Cron 设置如果其任务执行时间超过 5 分钟则每 5 分钟运行一次会发生什么情况它备份吗或者我应该实现一个锁定功能以防止某些东西例如在循环中处理先前调用已经处理的数据
SimpleIoC - 在缓存中找不到类型：Windows.UI.Xaml.Controls.Frame

第一次由 SimpleIoC 实例化我的 ViewModel 时我遇到了以下错误我相信我已经按应有的方式设置了容器但由于某种原因我仍然收到以下错误任何想法或帮助将非常感激 Microsoft Practices ServiceLo
将 Angular Web 组件 EventEmitter 监听到 javascript

我在以下工具的帮助下创建了一个小型网络组件本文 https medium com IMM9O web components with angular d0205c9db08f使用角度元素其中包括 Input and Output 我能够将
svn 强制迁移

我正在考虑将我们的 svn 代码库迁移到 perforce 看看谷歌搜索结果我确实找到了两个具有相同功能的工具 P4转换ftp ftp perforce com pub perforce tools p4convert docs inde
java'assert'和'if(){}else exit;'之间的区别

java和java有什么区别assert and if else exit 我可以用吗if else exit代替assert 也许有点谷歌您应该记住的主要事情是 if else 语句应该用于程序流程控制而assert 关键字应该仅用于
R闪亮：使用闪亮的JS从数据表中获取信息

我想读出所有列名称以及它们在数据表中显示的顺序由于不同的原因我无法使用 stateSave 等选项我对 JS 没有什么把握但我确信用它可以完成所以我需要你帮助我我尝试过类似的代码片段 datatable data callbac
React 错误：目标容器不是 DOM 元素

我刚刚开始使用 React 所以这可能是一个非常简单的错误但我们开始吧我的html代码非常简单 load staticfiles
PLS-00103：遇到符号“;”当预期出现以下情况之一时：

我正在尝试插入用户安全问题的答案以用于密码重置功能 Ellucian 横幅 v8 提供了一个用于运行此 API 的 API 我对他们的 API 非常陌生从下面的错误消息来看我还远远没有正确运行它任何帮助表示赞赏我尝试在 Oracl
自定义字符串查询操作的 Linq to NHibernate 可扩展性？

我希望能够在 NHibernate Linq 表达式中使用自定义字符串查询举例来说这只是一个例子我希望能够选择包含属性的实体该属性是特定字符串的字谜 var myEntities EntityRepository AllEntiti
Java 和/C++ 在多线程方面的差异

我读过一些提示多线程实现很大程度上取决于您正在使用的目标操作系统操作系统最终提供了多线程能力比如Linux有POSIX标准实现而windows32有另一种方式但我想知道编程语言水平的主要不同 C似乎为同步提供了更多选择例如互斥锁

随机推荐

模拟对象返回带有 Moq 的模拟列表

我正在尝试测试以下代码 public void CleanUp List
直接读取程序计数器

Intel CPU 上的程序计数器可以在内核模式或其他模式下直接读取即没有技巧吗不 EIP IP 无法直接访问但在位置相关代码中它是链接时间常量因此您可以使用附近或远处的符号作为立即数 mov eax nearby lab
使用python(windows)创建两个子进程

使用Python编程语言完成以下任务创建两个进程我们称之为 P1 和 P2 P1应该打印我是P1 P2应该打印我是P2 主进程创建 P1 和 P2 的进程应该等待它们然后 P1和P2完成后主进程应该打印我是主进程两个进程
在特定行之后添加行

我正在尝试将特定行添加到文件中的特定区域我正在使用这个 new file open file txt r for line in new file if line Include below line line nIncluded tex
Find() 与Where().FirstOrDefault()

我经常看到人们使用Where FirstOrDefault 进行搜索并获取第一个元素为什么不直接使用Find 对方有优势吗我看不出有什么不同 namespace LinqFindVsWhere class Program static
使用正则表达式修剪电话号码

可能是一个简单的正则表达式问题如何从电话号码中删除除前导之外的所有非数字 i e 012 3456 gt 0123456 1 234 56789 gt 123456789
为什么模式匹配一个单词而有两个相同的单词？

请看一下这个如你所见只有one匹配于regex101 但浏览器匹配two相同的单词所以为什么regex101无法匹配第二个单词无论如何我需要匹配这两个词或更多如果存在的话注意到它与以下内容无关g旗帜因为我在小提琴中使用过它
CreateProcessAsUser 和 LogonUser 无密码

使用 WTSGetActiveConsoleSessionId 和 WTSQueryUserToken 我知道作为 SYSTEM 运行的服务可以在当前桌面上启动应用程序 http blog dcuktec com 2009 05 pytho
防止 Azure B2C 自定义策略中的电子邮件更改

有没有办法防止密码重置期间更改电子邮件有密码恢复的标准政策但我不喜欢在那里更改电子邮件该电子邮件用作与其他应用程序集成的 ID 密码重置期间更改电子邮件不会更改用户的实际电子邮件如果用户验证电子邮件但随后意识到这不是他们想要重置密码
python 使用 numpy 进行位移

我正在使用 64 位无符号整数并在位移后比较该值然后再解码其余位值我正在迭代数百万个值并尝试最大程度地减少处理时间问题是 uint64 和 numpy uint64 都不支持位移位我试图避免使用 int64 以避免负值示例数据
PHP HTML 净化器和 MathML

有没有什么简单的方法可以允许所有 MathML 标签在 HTML Purifier 中具有属性我试图将所有 MathML 标签从https developer mozilla org en US docs Web MathML Eleme
是否有实体框架 7 数据库优先 POCO 生成器？

我一直在为我正在开发的一个新项目使用 Entity Framework 7 和 ASP NET 5 但遇到了障碍我所在的团队使用 DBA 优先的开发方法即数据库由 DBA 设计然后开发人员更改代码以补偿模型更改使用 EF6 效果很好
如何使图像高度适合并置文本高度

我有一个图像和一个并排的文本图像在左边文本在右边关于如何根据文本段落高度以及宽度与高度保持比例调整图像高度的任何想法而不是将文本环绕在图像周围这是我所能做到的 div style display table width 100
Flask jsonify 支持 UTF-8 吗？

我一直在使用 Flasks 和 jsonify 进行实验有用但不支持 utf 8 字符土耳其字符我正在使用字典 if api key in key list quotes ataturk Hayatta En Hakiki Murs
如何在启动时完全停止 Android Studio 索引/扫描/构建？

我怎样才能停止这个索引或任何这个启动过程它是做什么用的它为什么这么做我可以在以后最需要的时候推迟加载这么大的进程吗我通过无效并重新启动解决了这个问题我在循环中遇到了这个问题在没有运行或构建任何东西的情况下不停地索引文件 gt
ModelAttribute 可以是原始的吗？

我在 Spring MVC 3 0 中的 ModelAttribute 上遇到了一个奇怪的问题当我在本地主机部署应用程序时它工作正常但是当我在远程服务器上部署该应用程序时每次用户访问特定操作时它都会失败并出现错误 ERROR my
互斥的powershell参数

SCENARIO 我正在使用 Visual Studio 2008 和 NET 3 5 为 Powershell 2 0 编写 cmdlet 该 cmdlet 需要 3 个参数我想要的 cmdlet 语法是这样的 cmdletname f
Apache2中可以有两个密码文件吗？

我可以在 apache2 sites enabled 000 default 配置文件中包含两个 AuthUserFile 指令吗
Google App Engine“搜索”的测试床存根

我正在尝试使用开发应用程序服务器在 Python 中测试 Google App Engine 的新全文搜索功能是否有存根search https developers google com appengine docs python se
Spark：“无法使用 UnspecifiedFrame。这应该在分析过程中进行转换。请提交错误报告”

Spark 2 3 0 与 Scala 2 11 我正在尝试编写一个自定义聚合器并在每个窗口函数上运行它这些文档 https spark apache org docs latest sql programming guide html t

Spark：“无法使用 UnspecifiedFrame。这应该在分析过程中进行转换。请提交错误报告”

Spark：“无法使用 UnspecifiedFrame。这应该在分析过程中进行转换。请提交错误报告” 的相关文章

随机推荐

热门标签