Structured Streaming报错记录：Overloaded method foreachBatch with alternatives

2023-05-16

Structured Streaming报错记录：Overloaded method foreachBatch with alternatives

【文章目录】

Structured Streaming报错记录：Overloaded method foreachBatch with alternatives
Structured Streaming报错记录：Overloaded method foreachBatch with alternatives
- 0. 写在前面
- 1. 报错
- 2. 代码及报错信息
- 3. 原因及纠错
- 4. 参考链接

Structured Streaming报错记录：Overloaded method foreachBatch with alternatives

在这里插入图片描述

0. 写在前面

Spark : Spark3.0.0
Scala : Scala2.12

1. 报错

overloaded method value foreachBatch with alternatives:

2. 代码及报错信息

Error:(48, 12) overloaded method value foreachBatch with alternatives:

(function:org.apache.spark.api.java.function.VoidFunction2[org.apache.spark.sql.Dataset[org.apache.spark.sql.Row],java.lang.Long])org.apache.spark.sql.streaming.DataStreamWriter[org.apache.spark.sql.Row]

(function: (org.apache.spark.sql.Dataset[org.apache.spark.sql.Row], scala.Long) => Unit)org.apache.spark.sql.streaming.DataStreamWriter[org.apache.spark.sql.Row]

cannot be applied to ((org.apache.spark.sql.Dataset[org.apache.spark.sql.Row], Any) => org.apache.spark.sql.Dataset[org.apache.spark.sql.Row])

.foreachBatch((df, batchId) => {

import java.util.Properties
import org.apache.spark.sql.streaming.{StreamingQuery, Trigger}
import org.apache.spark.sql.{DataFrame, SparkSession}

object ForeachBatchSink1 {
    def main(args: Array[String]): Unit = {
        val spark: SparkSession = SparkSession
            .builder()
            .master("local[*]")
            .appName("ForeachSink1")
            .getOrCreate()
        import spark.implicits._
        
        val lines: DataFrame = spark.readStream
            .format("socket") // 设置数据源
            .option("host", "cluster01")
            .option("port", 10000)
            .load
        
        val props = new Properties()
        props.setProperty("user", "root")
        props.setProperty("password", "1234")
        
        val query: StreamingQuery = lines.writeStream
            .outputMode("update")
            .foreachBatch((df, batchId) => {
                val result = df.as[String].flatMap(_.split("\\W+")).groupBy("value").count()
               
                result.persist()
              result.write.mode("overwrite").jdbc("jdbc:mysql://cluster01:3306/test","wc", props)
                result.write.mode("overwrite").json("./foreach1")
                result.unpersist()
            })
//            .trigger(Trigger.ProcessingTime(0))
            .trigger(Trigger.Continuous(10))
            .start
        query.awaitTermination()
      
    }
}

/**

Error:(43, 12) overloaded method value foreachBatch with alternatives:
(function:org.apache.spark.api.java.function.VoidFunction2[org.apache.spark.sql.Dataset[org.apache.spark.sql.Row],java.lang.Long])org.apache.spark.sql.streaming.DataStreamWriter[org.apache.spark.sql.Row]
(function: (org.apache.spark.sql.Dataset[org.apache.spark.sql.Row], scala.Long) => Unit)org.apache.spark.sql.streaming.DataStreamWriter[org.apache.spark.sql.Row]
cannot be applied to ((org.apache.spark.sql.Dataset[org.apache.spark.sql.Row], Any) => org.apache.spark.sql.DataFrame)
.foreachBatch((df, batchId) => {
*/

import java.util.Properties
import org.apache.spark.sql.streaming.{StreamingQuery, Trigger}
import org.apache.spark.sql.{DataFrame, SparkSession}

object ForeachBatchSink {
    def main(args: Array[String]): Unit = {
        val spark: SparkSession = SparkSession
            .builder()
            .master("local[*]")
            .appName("ForeachSink")
            .getOrCreate()
        import spark.implicits._
        
        val lines: DataFrame = spark.readStream
            .format("socket") // 设置数据源
            .option("host", "cluster01")
            .option("port", 10000)
            .load
        
        val props = new Properties()
        props.setProperty("user", "root")
        props.setProperty("password", "1234")
        
        val query: StreamingQuery = lines.writeStream
            .outputMode("complete")
            .foreachBatch((df, batchId) => {          
                result.persist()
                result.write.mode("overwrite").jdbc("jdbc:mysql://cluster01:3306/test","wc", props)
                result.write.mode("overwrite").json("./foreach")
                result.unpersist()
            })
            .start
        query.awaitTermination()
      
    }
}

3. 原因及纠错

Scala2.12版本和2.11版本的不同，对于foreachBatch()方法的实现不太一样

正确代码如下

import java.util.Properties
import org.apache.spark.sql.streaming.StreamingQuery
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}


object ForeachBatchSink {

    def myFun(df: Dataset[Row], batchId: Long, props: Properties): Unit = {
        println("BatchId" + batchId)
        if (df.count() != 0) {
            df.persist()
            df.write.mode("overwrite").jdbc("jdbc:mysql://cluster01:3306/test","wc", props)
            df.write.mode("overwrite").json("./StructedStreaming_sink-ForeachBatchSink")
            df.unpersist()
        }
    }

    def main(args: Array[String]): Unit = {

        val spark: SparkSession = SparkSession
          .builder()
          .master("local[2]")
          .appName("ForeachBatchSink")
          .getOrCreate()
        import spark.implicits._

        val lines: DataFrame = spark.readStream
          .format("socket") // TODO 设置数据源
          .option("host", "cluster01")
          .option("port", 10000)
          .load

        val wordCount: DataFrame = lines.as[String]
          .flatMap(_.split("\\W+"))
          .groupBy("value")
          .count()  // value count

        val props = new Properties()
        props.setProperty("user", "root")
        props.setProperty("password", "1234")

        val query: StreamingQuery = wordCount.writeStream
          .outputMode("complete")
          .foreachBatch((df : Dataset[Row], batchId : Long) => {
              myFun(df, batchId, props)
          })
          .start

        query.awaitTermination()

    }
}

import java.util.Properties

import org.apache.spark.sql.streaming.{StreamingQuery, Trigger}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object ForeachBatchSink1 {

    def myFun(df: Dataset[Row], batchId: Long, props: Properties, spark : SparkSession): Unit = {
        import spark.implicits._
        println("BatchId = " + batchId)
        if (df.count() != 0) {
            val result = df.as[String].flatMap(_.split("\\W+")).groupBy("value").count()
            result.persist()
            result.write.mode("overwrite").jdbc("jdbc:mysql://cluster01:3306/test","wc", props)
            result.write.mode("overwrite").json("./StructedStreaming_sink-ForeachBatchSink1")
            result.unpersist()
        }
    }

    def main(args: Array[String]): Unit = {

        val spark: SparkSession = SparkSession
          .builder()
          .master("local[2]")
          .appName("ForeachBatchSink1")
          .getOrCreate()
        import spark.implicits._

        val lines: DataFrame = spark.readStream
          .format("socket") // TODO 设置数据源
          .option("host", "cluster01")
          .option("port", 10000)
          .load

        val props = new Properties()
        props.setProperty("user", "root")
        props.setProperty("password", "1234")

        val query: StreamingQuery = lines.writeStream
          .outputMode("update")
          .foreachBatch((df : Dataset[Row], batchId : Long) => {
                myFun(df, batchId, props, spark)
          })
          .trigger(Trigger.Continuous(10))
          .start
        query.awaitTermination()

    }
}

4. 参考链接

https://blog.csdn.net/Shockang/article/details/120961968

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Structured

Streaming

Overloaded

Method

foreachBatch

Structured Streaming报错记录：Overloaded method foreachBatch with alternatives 的相关文章

使用 FFmpeg 从 Mac 进行网络摄像头流传输

我想使用 FFmpeg 从 Mac 流式传输我的网络摄像头首先我使用检查了支持的设备ffmpeg f avfoundation list devices true i Output AVFoundation input device 0x
使用 Laravel 为 Android 提供 mp3 流

这是我的问题我正在编写一个 laravel 后端它必须提供一个 mp3 文件该文件必须使用 android 标准媒体播放器再现对于 laravel 后端我需要使用 JWT 来处理身份验证因此在每个请求标头中我必须将授权字段
如何设置机器人的状态

所以我试图让我的机器人流媒体与抑郁症但我已经尝试了多种方法但它们不起作用我尝试过这些方法 client user setPresence game name with depression status online bot user
如何在不先读取整个图像的情况下就地缩放流式位图？

我有一个图像密集型的 Android 应用程序我目前正在使用Bitmap createScaledBitmap http developer android com reference android graphics Bitmap ht
使用 PHP 进行实时视频流传输

我有一个 PHP AJAX MYSQL 聊天应用程序我想将视频聊天添加到我的应用程序中如何在 PHP 应用程序中创建用于实时视频会议聊天的实时视频流如果我想构建这样一个系统我需要了解哪些关键术语首先使用 PHP 是个好主意吗有
如何在网页上嵌入 mjpeg 文件

我需要将 IP 摄像机的输出显示到网页以便最终用户可以使用此页面从该摄像机查看实时内容它有一个为捕获的视频提供 mjpeg 输出的界面我需要将其嵌入到我的网页上它至少应该可以在 Firefox Safari 和 IE 上运行提前致
了解 Python HTTP 流

我正在努力使用 Python 和请求访问流 API API 内容我们启用了一个流端点以便利用持久的 HTTP 套接字连接来请求报价和交易数据来自 API 的流数据包括发出经过身份验证的 HTTP 请求并保持 HTTP 套接字打开以持续
使用 PHP 分块传输 FTP 上传？

是否可以使用 PHP 进行 FTP 上传我有文件需要上传到另一台服务器但我只能通过 FTP 访问该服务器不幸的是我无法增加该服务器上的超时时间有可能做到这一点吗基本上如果有一种方法可以写入文件的一部分然后附加下一部分并重复
将 XFDF 与 PDF 表单合并以创建最终的 PDF 服务器端？

这就是我目前所拥有的用户提交表单数据并获得下载 PDF 链接该链接指向动态生成 XFDF 文件的脚本并在设置适当的标头等后输出 XFDF 文件 XFDF 文件指向受密码保护的 PDF 这是使用 XFDF 数据填写字段的通用 PDF
将 hadoop 流与 python 组合器一起使用时失败

我尝试使用 python 的 hadoop 流来计算输入键的平均值以下是mapper combiner和reducer的代码 mapper import sys def map argv line sys stdin readline t
flink kafka生产者在检查点恢复时以一次模式发送重复消息

我正在写一个案例来测试 flink 两步提交下面是概述 sink kafka曾经是kafka生产者 sink stepmysql接收器是否扩展two step commit sink comparemysql接收器是否扩展two step
Android 上的 RTSP 客户端实现

我看到很多与此相关的问题尽管如此我认为我的答案还没有我想在 Android 上使用已编码的 RTSP 客户端与 MediaCodec 一起使用以便捕获 H264 中的 RTSP 流然后解码并显示它我使用了 VideoView 和
如何在流式传输之前知道音频歌曲的持续时间？

我正在制作一个流音频歌曲的应用程序在自定义媒体播放器中我必须显示该音频文件的总持续时间如果一首音频歌曲是 SDCard 我可以使用以下方法知道它的持续时间 MediaPlayer player public double durati
python-twitter 流 api 支持/示例

我正在与python twitter http code google com p python twitter 并意识到 Twitter 提供流媒体api http dev twitter com pages streaming api实
如何通过 YouTube 直播 API 更改我的活动使用的流？

所以我一直在寻找一种从 YouTube 获取 16 位流名称的方法我终于通过这行代码找到了它 gt streamName returnedStream getCdn getIngestionInfo getStreamName 流名称只是
为什么 Spark 在字数统计时速度很快？ [复制]

这个问题在这里已经有答案了测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计我明白映射减少 FP and stream编程模型但无法弄清楚字数统计的速度如此惊人我认为这种情况下是I O密集型计算不可能在20秒以上扫描
在 Chrome 和 IE11 上流式传输可观看的 .mjpeg 视频

我在本地托管了一个 mjpeg 文件http 127 0 0 1 web Images Stream somevideo mjpeg http 127 0 0 1 web Images Stream somevideo mjpeg 我在我的
使用 Servlet 启动 VLC HTTP Stream 时出现问题

我正在为自己开发一个 VLC 项目我的目标是创建一个 HTML 前端来启动流我通过使用 Java Servlet 来完成此操作概述乌班图13 04 Java 7 21 冰茶 2 3 9 Eclipse JAVAEE IDE 雄猫7
计算流数据的直方图 - 在线直方图计算

我正在寻找一种算法来生成大量流数据的直方图最大值和最小值事先未知但标准差和平均值在特定范围内我很欣赏你的想法 Cheers 我刚刚找到了一个解决方案秒从流式并行决策树算法构建在线直方图论文的 2 2 该算法由 Hive 项目中的
数据库镜像/Postgres流复制

我不是 DBA 我是基于企业数据库的应用程序的主要开发人员我目前正在指定一些新机器来升级我们现有的企业数据库目前我们在 DR 站点上运行带有数据库的 Postgres 8 4 该数据库通过前员工执行的一些自定义 rsync 工作定期接

随机推荐

OracleVirtualBox界面太小，操作界面对用户不友好？如何使得界面最大化且方便在Windows和Linux环境之间切换应用呢？

OracleVirtualBox界面太小 xff0c 操作界面对用户不友好 xff1f 如何使得界面最大化且方便在Windows和Linux环境之间切换应用呢 xff1f 写在前面 xff0c 个人记录学习笔记仅供参考 xff01 xff
flume报错java.net.ConnectException: 拒绝连接；

flume报错记录 java net ConnectException 拒绝连接 For more details see http wiki apache org hadoop ConnectionRefused 文章目录具体信息解决方
虚拟机在桥接模式下，A类IP地址访问不了外网，C类则可以

虚拟机在桥接模式下 xff0c A类IP地址访问不了外网 xff0c C类则可以写在前面 xff0c 个人学习记录 xff0c 有错误请指正 xff01 Ubuntu网络选择 NAT和桥接网卡模式的区别一 NAT模式 xff1a 特点
Java项目——云R记

Java入门级项目云R记文章目录 Java入门级项目云R记 1 项目介绍 2 需求分析 3 环境搭建 3 1 创建项目 3 2 分层思想 3 3 数据库连接 3 4 单元测试 3 5 使用日志 4 用户模块 5 类型模块 6 云记模块
Linux安装Eclipse

Linux安装Eclipse 文章目录 Linux安装EclipseEclipse国内镜像 Eclipse国内镜像中国科学技术大学 xff1a http mirrors ustc edu cn eclipse eclipse downlo
HDFS 自定义实现函数将文件追加到末尾的问题

HDFS 自定义实现函数将文件追加到末尾的问题 xff1a 一实验环境 xff1a Ubuntu16 04Hadoop2 7 1 伪分布式 xff08 只有一个DN xff09 Eclipse 二解决方案 Java代码 xff1a sp
这些年一路相伴的书

这些年 xff0c 四五年而已 xff0c 不多不少 xff0c 也从校园走到了工作岗位 xff0c 变化的环境 xff0c 只是看书习惯依然不变写这个一是做个分享总结 xff0c 二是看到了活动链接 xff0c 好吧 xff0c 不小心
Linux（CentOS7.5）安装IDEA

Linux xff08 CentOS7 5 xff09 安装IDEA 文章目录 Linux xff08 CentOS7 5 xff09 安装IDEA一安装JDK1 先查看Java的版本2 过滤查出openjdk以及版本3 删除openJD
启动hdfs报错：hadoop100 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password)

启动hdfs报错 xff1a hadoop100 Permission denied publickey gssapi keyex gssapi with mic password 文章目录启动hdfs报错 xff1a hadoop100
CentOS7.5配置伪分布式环境

CentOS7 5配置伪分布式环境文章目录 CentOS7 5配置伪分布式环境1 提前安装JDK和Hadoop并配置好环境变量2 修改配置文件3 格式化NameNode4 启动Hadoop5 Web端查看HDFS信息 1 提前安装JDK和
使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

使用Maven构建Hadoop工程并实现词频统计案例详细篇文章目录使用Maven构建Hadoop工程并实现词频统计案例详细篇一实验环境 xff1a 二使用Maven构建Hadoop工程1 解压Maven到自己的安装目录2 配置
执行MapReduce的Jar包报错：Exception in thread main ExitCodeException exitCode=1

执行MapReduce的Jar包报错 xff1a Exception in thread main ExitCodeException exitCode 61 1 文章目录执行MapReduce的Jar包报错 xff1a Exceptio
重装win10纯净版操作系统

重装win10纯净版操作系统文章目录重装win10纯净版操作系统一写在前面 xff1a 二安装1 步骤如下 xff1a 2 视频观看3 重装过程可能遇到的一些麻烦 xff0c 列举一下我自己遇到的问题 xff1a 一写在前面 xf
Hive报错记录——林子雨教材

Hive报错记录林子雨教材文章目录 Hive报错记录林子雨教材一说明二报错记录1 创建分区表的sql代码有误2 Hive修改表名为user出错 xff1a 3 新增分区报错4 查看表中字段id 报错 gt 无效列名5 查询数据报错
Windows系统下安装MySQL8高版本（已安装MySQL5）

Windows系统下安装MySQL8高版本 xff08 已安装MySQL5 xff09 文章目录 Windows系统下安装MySQL8高版本 xff08 已安装MySQL5 xff09 一 MySQL安装包下载地址二安装步骤1 先停止之前
SLF4J: Hbase和Flume的slf4j-log4j12-x.x.xx.jar与hadoop的slf4j-log4j12-x.x.xx.jar冲突

SLF4J Hbase和Flume的slf4j log4j12 x x xx jar与hadoop的slf4j log4j12 x x xx jar冲突文章目录 SLF4J Hbase和Flume的slf4j log4j12 x x xx
Intellij Idea配置Tomcat并创建JavaWeb项目

Intellij IDEA配置Tomcat并创建JavaWeb项目文章目录 Intellij IDEA配置Tomcat并创建JavaWeb项目一实验环境二说明三 Web项目搭建1 创建一个空项目2 点击next3 设置空项目名称4 设
我的2013这一年 -- 唯一关键词变化

又一年 xff0c 又是一个年终总结 xff0c 2013的关键词就一个变化 xff0c 貌似去年是三个起初没怎么注意已到了2013年未 xff0c 圣诞前后 xff0c CSDN上开始扎堆出现年终总结的帖子或博客文章 xff0c 还有
大数据技术基础综合项目——牛客网招聘岗位统计分析

大数据技术基础综合项目牛客网招聘岗位统计分析文章目录大数据技术基础综合项目牛客网招聘岗位统计分析零实验环境说明一数据集来源及说明二数据预处理阶段 2 1 删除空行的数据 2 2 区分实习与非实习岗位 2 3 岗位预处理
Structured Streaming报错记录：Overloaded method foreachBatch with alternatives

Structured Streaming报错记录 xff1a Overloaded method foreachBatch with alternatives 文章目录 Structured Streaming报错记录 xff1a Over

Structured Streaming报错记录：Overloaded method foreachBatch with alternatives

Structured Streaming报错记录：Overloaded method foreachBatch with alternatives

【文章目录】

Structured Streaming报错记录：Overloaded method foreachBatch with alternatives

0. 写在前面

1. 报错

2. 代码及报错信息

3. 原因及纠错

4. 参考链接

Structured Streaming报错记录：Overloaded method foreachBatch with alternatives 的相关文章

随机推荐

热门标签