具有流源的查询必须使用 writeStream.start();; 执行

2023-12-21

我正在尝试使用 Spark 结构化流从 Kafka 读取数据并预测传入数据。我正在使用使用 Spark ML 训练过的模型。

val spark = SparkSession
  .builder()
  .appName("Spark SQL basic example")
  .master("local")
  .getOrCreate()
import spark.implicits._

val toString = udf((payload: Array[Byte]) => new String(payload))
val sentenceDataFrame = spark.readStream.format("kafka").option("kafka.bootstrap.servers","localhost:9092").option("subscribe", "topicname1")
  .load().selectExpr("CAST(value AS STRING)").as[(String)]
sentenceDataFrame.printSchema()
val regexTokenizer = new RegexTokenizer()
  .setInputCol("value")
  .setOutputCol("words")
  .setPattern("\\W")
val tokencsv = regexTokenizer.transform(sentenceDataFrame)
val remover = new StopWordsRemover()
  .setInputCol("words")
  .setOutputCol("filtered")

val removestopdf = remover.transform(tokencsv)
// Learn a mapping from words to Vectors.
val word2Vec = new Word2Vec()
  .setInputCol("filtered")
  .setOutputCol("result")
  .setVectorSize(300)
  .setMinCount(0)

val model = word2Vec.fit(removestopdf)

val result = model.transform(removestopdf)


val featureIndexer = new VectorIndexer()
  .setInputCol("result")
  .setOutputCol("indexedFeatures")
  .setMaxCategories(2)
  .fit(result)

val some = featureIndexer.transform(result)

val model1 = RandomForestClassificationModel.load("/home/akhil/Documents/traindata/stages/2_rfc_80e12c5d1259")

  val predict = model1.transform(result)

val query = predict.writeStream
  .outputMode("append")
  .format("console")
  .start()
query.awaitTermination()

当我对流数据进行预测时，它给出以下错误：

 Exception in thread "main" org.apache.spark.sql.AnalysisException: 
 Queries with streaming sources must be executed with 
writeStream.start();;
kafka
at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.org$apache$spark$sql$catalyst$analysis$UnsupportedOperationChecker$$throwError(UnsupportedOperationChecker.scala:196)
at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$$anonfun$checkForBatch$1.apply(UnsupportedOperationChecker.scala:35)
at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$$anonfun$checkForBatch$1.apply(UnsupportedOperationChecker.scala:33)
at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:128)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at scala.collection.immutable.List.foreach(List.scala:381)
at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at scala.collection.immutable.List.foreach(List.scala:381)
at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at scala.collection.immutable.List.foreach(List.scala:381)
at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at scala.collection.immutable.List.foreach(List.scala:381)
at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:127)
at scala.collection.immutable.List.foreach(List.scala:381)
at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:127)
at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.checkForBatch(UnsupportedOperationChecker.scala:33)
at org.apache.spark.sql.execution.QueryExecution.assertSupported(QueryExecution.scala:58)
at org.apache.spark.sql.execution.QueryExecution.withCachedData$lzycompute(QueryExecution.scala:69)
at org.apache.spark.sql.execution.QueryExecution.withCachedData(QueryExecution.scala:67)
at org.apache.spark.sql.execution.QueryExecution.optimizedPlan$lzycompute(QueryExecution.scala:73)
at org.apache.spark.sql.execution.QueryExecution.optimizedPlan(QueryExecution.scala:73)
at org.apache.spark.sql.execution.QueryExecution.sparkPlan$lzycompute(QueryExecution.scala:79)
at org.apache.spark.sql.execution.QueryExecution.sparkPlan(QueryExecution.scala:75)
at org.apache.spark.sql.execution.QueryExecution.executedPlan$lzycompute(QueryExecution.scala:84)
at org.apache.spark.sql.execution.QueryExecution.executedPlan(QueryExecution.scala:84)
at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:87)
at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:87)
at org.apache.spark.sql.Dataset.rdd$lzycompute(Dataset.scala:2547)
at org.apache.spark.sql.Dataset.rdd(Dataset.scala:2544)
at org.apache.spark.ml.feature.Word2Vec.fit(Word2Vec.scala:175)
at predict1model$.main(predict1model.scala:53)
at predict1model.main(predict1model.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)

错误指的是 word2vec.fit(removestopdf) 行。任何帮助将非常感激。

一般来说，结构化流不能（从 Spark 2.2 开始）用于训练 Spark ML 模型。结构化流不支持某些操作。其中之一是转变Dataset to its rdd表示。特别是以下情况word2Vec, 它需要去rdd实施水平fit https://github.com/apache/spark/blob/fa225da7463e384529da14706e44f4a09772e5c1/mllib/src/main/scala/org/apache/spark/ml/feature/Word2Vec.scala#L176.

尽管如此，可以在静态数据集上训练模型并将预测应用于流数据。这transform操作可用于流式传输Dataset，如上所示：val result = model.transform(removestopdf)

简而言之，我们需要fit the model在静态数据集上。所结果的transformer can be applied到流媒体Dataset.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

具有流源的查询必须使用 writeStream.start();; 执行的相关文章

带预览和进度栏的 Twitter Bootstrap 图像上传

我如何使用 Twitter Bootstrap 上传带有预览和进度条的单个图像目前在保存图像之前我看不到上传图像的任何预览或进度条 Jasny 的 Bootstrap 分支让您能够接近这一点看文档 http jasny github
Javascript：在函数内调用函数时 window.location.href 不会重定向

单击按钮时 window location href 会将浏览器重定向到 stackoverflow com 但在输入文本字段中按 Enter 键时不会将浏览器重定向到 stackoverflow com 尽管两个事件侦听器使用相同的函数
使用空的weak_ptr作为参数调用map::count安全吗？

打电话安全吗map count http www cplusplus com reference map map count on an 未初始化因此为空weak ptr http en cppreference com w cpp mem
如何在 Scala Play 框架中进行 Twitter 反向身份验证？

我正在编写一个 play 应用程序在 scala 中并且正在尝试执行 twitter 此处概述的反向身份验证步骤 https dev twitter com docs ios using reverse auth https dev t
使用 DataMapper 而不是 ActiveRecord [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
将同步 zip 操作转换为异步

我们有一个现有的库其中一些方法需要转换为异步方法但是我不确定如何使用以下方法执行此操作错误处理已被删除该方法的目的是压缩文件并将其保存到磁盘请注意 zip 类不公开任何异步方法 public static bool ZipAndS
Adobe Illustrator 中的折线简化如何工作？

我正在开发一个记录笔划的应用程序您可以使用定点设备来绘制笔划在上图中我绘制了一个笔划其中包含 453 个数据点我的目标是大幅减少数据点的数量同时仍然保持原始笔画的形状对于那些感兴趣的人上图笔画的坐标可以作为GitHub 上的
Turbolinks 访问的页面中缺少 hubspot 聊天界面，但可用于全页面刷新

我想将 hubspot 聊天界面集成到我的 Rails 4 Turbolinks 应用程序中我已将 Google 跟踪代码管理器配置为在每个页面加载事件中显示支持聊天界面该界面工作正常 GTM 标签自定义 html PROBLEM 当
具有重复值的 Sqlite 列

就说专栏吧aSQLite 数据库的非常重复始终有相同的 4 个值其他值可能稍后出现但不同值的数量将少于 1000 个 VALUES hello world it s a shame to store this str many tim
Haskell：如何创建将函数应用于元组项的最通用函数

这是一个个人练习旨在更好地理解 Haskell 类型系统的局限性我想创建最通用的函数将某些函数应用于 2 条目元组中的每个条目例如 applyToTuple fn a b fn a fn b 我试图让这个函数在以下每种情况下都起作用
Centos/Linux 将 logrotate 设置为所有日志的最大文件大小

我们使用 logrotate 并且它每天运行现在我们遇到了一些情况日志显着增长阅读 gigabaytes 并杀死我们的服务器所以现在我们想为日志设置最大文件大小我可以将其添加到 logrotate conf 中吗 size 50M
NHibernate：无状态会话错误消息无法获取代理

我正在使用 nHibernate 无状态会话来获取对象更新一个属性并将对象保存回数据库我不断收到错误消息无状态会话无法获取代理我在其他地方有类似的代码所以我不明白为什么这不起作用有谁知道问题可能是什么我正在尝试更新Screen
如何从我的 appDelegate 访问我的 viewController？ iOS系统

我有一个在 xCode 中创建为基于视图的应用程序的 iOS 应用程序我只有一个 viewController 但它会自动显示而且我没有看到任何将它与我的 appDelegate 关联的代码我需要将数据从 appDelegate
.gitignore：如何忽略嵌套目录？

我有以下目录结构 test a test b c test a b Ouput test c d e Output test f Output 我想忽略 test 下的所有 Output 目录我试过test Output 但没有成功我究
Pandas 2 个字段中唯一值的数量

我正在尝试查找覆盖 2 个字段的唯一值的数量例如一个典型的例子是姓氏和名字我有一个数据框当我执行以下操作时我只获取每列的唯一字段数在本例中为最后一个和第一个不是复合体 df Last Name First Name nu
如何从Python枚举类中获取所有值？

我正在使用 Enum4 库创建一个枚举类如下所示 class Color Enum RED 1 BLUE 2 我要打印 1 2 作为某处的列表我怎样才能实现这个目标您可以执行以下操作 e value for e in Color
在着色器中旋转法线

我有一个场景其中有多个具有各自位置和旋转的模型给定法线着色器对每个像素应用简单的双向照明那是我的顶点着色器 version 150 in vec3 position in vec3 normal in vec2 texcoord o
在reactjs中停止超时？

有没有办法可以杀死摆脱 reactjs 中的超时 setTimeout function do something bind this 3000 通过某种点击或操作我希望能够完全停止并结束超时有没有办法做到这一点谢谢假设这种情况发
如何使用javascript取消设置变量？ [复制]

这个问题在这里已经有答案了这是我到目前为止所尝试的 var nxt I am next window onscroll function var scr this pageYOffset if scr gt 400 console log
应用服务器如何注入私有字段？

我看到这个问题注入私有包或公共字段或提供 setter https stackoverflow com questions 2021716 inject into private package or public field or p

随机推荐

错误：模块“app”：找不到平台“android-28”。在项目同步成功之前，设计编辑器不可用

所以我是新来的刚刚安装了 Android Studio 然后想创建一个基本的 Activity 但问题是他们希望我安装 SDK 和 Haxm 而 Haxm 不是通过 SDK 管理器安装的我已经尝试了很多并使用了 Stack over
修改 NSDate 以表示从今天起 1 个月

我正在向我正在开发的 Cocoa 应用程序添加重复事件我每天和每周都会重复因为我可以用数学方式定义这些 3600 24 7 1 周我使用以下代码来修改日期 NSDate dateWithTimeIntervalSinceNow 360
如何为现有项目生成asgi.py？

我在 2 2 中有一个现有的 django 项目但现在我想开始使用通道所以我必须更改为 3 0 和 asgi 而不是 wsgi 如何生成运行应用程序所需的 asgi py Django 有一个模板文件here https github
在 Blazor 视图之外访问经过身份验证的用户

在我的服务器端 Blazor 应用程序中身份验证以非常规的方式处理本质上当用户访问该页面时他们将使用其 Windows 凭据进行身份验证此时将创建一个自定义策略来在外部数据库 Informix 中查找该用户名在该数据库中可以找
如何在 Android 中滑动视图时禁用 onclick 侦听器？

我有一个可以滑动到另一个页面的视图它有一个 onClick 侦听器用于显示一个对话框问题是滑动会触发这两个操作即显示下一页和对话框如何在滑动时禁用 onClick 侦听器听起来你想使用 GestureDetector as w
DiffableDataSource：快照不会重新加载页眉和页脚

我在用UICollectionViewDiffableDataSource for UICollectionView以多个部分显示内容我正在使用 Collection View Compositional Layout 和 Diffabl
如何通过堆栈跟踪访问本地变量？（模仿动态范围）

背景尽管可以在运行时编译 C 代码但不可能在当前作用域中包含并运行生成的代码相反所有变量都必须作为显式参数传递与 Python 这样的动态编程语言相比我们永远无法真正复制eval 如本例所示 x 42 print eval x
显示 node.js child_process.exec 的进度？

我最近提出接受了我之前提出的问题的答案如何使用 Node js 复制 wget 的功能 https stackoverflow com questions 9541177 how can i replicate the function
如何在 C++ 中访问数字的符号位？

我希望能够访问 C 中数字的符号位我当前的代码看起来像这样 int sign bit number gt gt 31 这似乎有效给了我0对于正数和 1对于负数但是我不明白我是如何得到的 1对于负数如果 12 是 0000 0000
向 y 轴添加标签以显示 matplotlib 中水平线的 y 值

如何将字符串标签添加到下图中显示的水平红线我想将 k 305 之类的内容添加到该行旁边的 y 轴标签中蓝点只是一些其他数据其值并不重要为了重现这个问题您可以绘制任何类型的数据我的问题是关于红线的 plt plot 0 502 3
iPhone - SKProductsRequest 和“消息发送到已解除分配的实例”

我在实施 InAppPurchase 时遇到了麻烦我的购买实现是在模态视图控制器 AppUpgradeViewController 中实现的我从另一个模态视图中呈现它我这样做 AppUpgradeViewController appU
Android 禁用列表视图项目

所以基本上我需要一些帮助或一些关于我遇到的问题的建议我正在从数据库填充列表视图并且需要在创建列表视图时检查该项目的 id 是否已打开position与我数据库中另一个表的 id 相同如果是您可以单击该项目如果不是我希望它禁用它
当鼠标在 JFrame 内移动时，Swing Timer 停止调用 actionPerformed()

如果我将鼠标移入javax swing JFrame the javax swing Timer停止呼叫actionPerformed 方法直到鼠标停止移动仅当我使用 Rocket Kone XTD 鼠标移动光标时才会出现这种情况当我
重启CF服务器会导致所有人退出吗？

如果CF服务器重新启动所有现有的Session和Client变量是否都会丢失客户端变量通常存在于数据库或注册表中因此它们在服务器重新启动后仍然存在请参阅here http help adobe com en US ColdFusio
所有单元测试都用 Moq 抛出 BadImageFormatException 吗？

我目前正在增加我们软件产品的代码覆盖率但遇到了一个问题我的所有单元测试当使用任何 CPU 编译时都因抛出 BadImageFormatException 而失败可以通过使用 x86 而不是任何 CPU 构建解决方案来规避此异常
Xcode - 使用#pragma 标记

我很确定这不是重复的你使用 pragma 标记吗我看了很多方法哪个是正确的 pragma mark pragma mark Actions pragma mark pragma mark pragma mark Actions pra
: 在 vim 中用全颜色方案硬拷贝一个文件

我想使用全彩打印我在 MacVIM 中编辑的一些文件包括深色背景当然我不会将其发送到打印机我只想将其保存为PDF hardcopy 删除背景并应用丑陋的方案是否可以而是使用 TOhtml 这是一个通常包含在默认 Vim 运行时中的
boost::bind 的返回类型是什么？

我想将函数的绑定器保存到变量中以便通过利用其运算符重载功能在以下代码中重复使用它这是实际执行我想要的操作的代码 include
statsmodels“LinAlgError：奇异矩阵”中的逻辑回归

不知道为什么但在拟合逻辑回归模型时出现 numpy linalg linalg LinAlgError 奇异矩阵错误 from sklearn datasets import load breast cancer from sklear
具有流源的查询必须使用 writeStream.start();; 执行

我正在尝试使用 Spark 结构化流从 Kafka 读取数据并预测传入数据我正在使用使用 Spark ML 训练过的模型 val spark SparkSession builder appName Spark SQL basic exa

具有流源的查询必须使用 writeStream.start();; 执行

具有流源的查询必须使用 writeStream.start();; 执行 的相关文章

随机推荐

热门标签

具有流源的查询必须使用 writeStream.start();; 执行的相关文章