在 Spark 结构化流中创建 Dataframe forEachWriter 以插入 kudu 表问题

2024-01-29

我有一个问题，我尝试寻找解决方案，但无法找到任何解决方案，并且希望获得任何*指针。

所以我试图将 Spark 结构化流与 Apache Kudu 集成，我正在从 Kafka 读取流并进行一些处理，现在应该写入 Kudu 表，问题是 Spark 结构化流不提供对 Kudu 接收器的支持（即我知道吗？），并且我正在使用 foreach writer，但一旦尝试在“ForeachWriter.process()”内创建数据框，它就会挂起并且永远不会继续

import org.apache.spark.sql.ForeachWriter
val foreachWriter = new  ForeachWriter[Row] {


  override def open(partitionId: Long,version: Long): Boolean = {
    val mySchema = StructType(Array(
      StructField("id", IntegerType),
      StructField("value", DoubleType),
      StructField("EventTimestamp", TimestampType)
    ))
       true
  }

  override def process(value: Row): Unit = {
    println("values\n------------------")

    val spark = SparkSession.builder.appName("Spark-Kafka-Integrations").master("local").getOrCreate()
    val valRDD=spark.sparkContext.parallelize(value.toSeq)
    val valRDF=valRDD.map(x=>x.toString.split(",").to[List])
    println(value)

    val valDF=spark.createDataFrame(valRDF)
    valDF.show()
    println("End values\n///////////////////")
    //shoud insert into kudu here
   }

  override def close(errorOrNull: Throwable): Unit = {
   }
}
   //count is a Dstream/streaming dataframe

count.writeStream.foreach(foreachWriter).outputMode("complete") .option("truncate", "false").start().awaitTermination()

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

SparkStructuredStreaming

apachekudu

在 Spark 结构化流中创建 Dataframe forEachWriter 以插入 kudu 表问题的相关文章

在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15

随机推荐

带有自定义适配器的微调器不会在选择时消失

我正在使用一个Spinner使用名为的自定义适配器类AlgorithmAdapter原则上一切工作正常这意味着会出现微调器弹出窗口并且所有包含的视图都会适当膨胀然而我无法找到的是在做出选择时如何告诉微调器我当然知道setSel
Java servlet：request.getParameter 和 request.setAttribute 以我不明白的方式连接[重复]

这个问题在这里已经有答案了在 doPost 方法的顶部我获取了之前使用基本表单在 JSP 中设置的一些参数 protected void doPost HttpServletRequest request HttpServletResp
document.location.href 和 document.location 有什么区别？

有什么区别document location href and document location 各个浏览器都一样吗 document location是同义词window location几乎自从 JavaScript 存在以来它就已
如何在不导入任何库的情况下获取列表的排名？（如果重复，则所有重复的排名等于平均位置）[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案如何在不导入任何库的情况下获取列表的排名最小的值将排名 1 下一个较小的值将排名 2 依此类推如果重复则所有重复的排名等于平均位置 E
Zillow API 常规搜索

我在使用 Zillow API 时遇到一些问题查询API 获取特定数据查询问题问题是我似乎找不到使用 Zillow API 进行一般搜索的方法例如通过only通过邮政编码以下是深度搜索的示例查询
如何将 Java 8 Stream 转换为二维数组？

我正在尝试转换基于地图Stream成二维数组我已经弄清楚如何将其存储在一维数组中这是工作代码片段 Float floatArray map entrySet stream map key gt key getKey getPrice t
如何将 ngFor 的动态索引添加到 html 属性值

我运行 ngFor 并且需要循环内的某些属性通过添加 ngFor 索引来更改它的值这意味着在 ngFor 中创建的每个 div 都将具有 uniq 属性值来源 div class class1 div class card header
Angular AOT 编译失败（使用 Angular/compiler-cli）

在浏览完文档页面上的 AOT 教程后我尝试编译 Angular 2 AOT 并收到以下错误 node modules bin ngc p tsconfig aot json TypeError compiler AnimationPars
我可以让 Ruby on Rails 控制台更好地记住我的命令历史记录吗？

我正在 Ruby on Rails 3 1 1 中使用控制台我发现它的命令历史记录向上箭头非常不稳定我已经运行了命令p Product by name Acme and p add search term Snipe 今天在多个控制
SQL Server 2012：对 order by 求和给出错误“order”附近的语法不正确

declare t table cid int amount int cname varchar insert into t values 6 20 C 7 30 C 8 10 C 9 10 D select sum amount over
YouTubePlayerView 只能使用扩展 YouTubeBaseActivity 作为其上下文的 Activity 创建

我在 XML 文件中收到此错误但无法弄清楚因为我的 Activity 已经扩展了 YouTubeBaseActivity 有谁能够帮助我
Laravel 异常 405 方法不允许

我试图在我的程序中创建一个新的 Airborne 测试并收到 405 MethodNotAllowed 异常 Routes Route post testing id airbornes create uses gt AirborneCon
ANTLR语法互左递归

我确实知道这个问题已经被问过很多次了我正在尝试使用 ANTLR 构建语法 Predicate LOWERCASE Predicate VarChars VarChars LOWERCASE UPPERCASE fragment LOWER
包需要 NuGet 客户端版本“2.12”

我尝试在 Visual Studio 2012 中安装 WindowsAzure Storage 8 0 1 但出现错误包需要 NuGet 客户端版本 2 12 或更高版本但当前 NuGet 版本是 2 8 60318 667 运行命令
CoreLocation线程崩溃崩溃：com.apple.CoreLocation.ConnectionClient.0x16fcb870.events

我在我们的生产应用程序中的 Apple CoreLocation 线程中遇到了此崩溃我无法在测试中重现它也很难弄清楚它的内部 CoreLocation 目前这种情况只占人口的一小部分但我可以看到它正在变得越来越大 Crashed c
VB.net、调用、委托和线程。无法弄清楚如何跨类使用它们

长话短说我在尝试弄清楚如何在使用线程时使用调用和或委托从单独的类更新用户表单时遇到了困难我很确定这对于有更多经验的人来说是愚蠢而明显的我知道可能需要委托但我所有的努力似乎只有在从主线程调用它时才有效我在网上查了半天还是没有明白
DSL 的嵌入式脚本引擎

我正在开发一个需要嵌入式 DSL 来满足其预期要求的项目 DSL 将基于用户定义的事件这是所需语法的模型 user defined event 1 event body user defined event 2 event body 可能
稍微旋转文本——我应该使用 css 还是 javascript？

我正在尝试旋转一段文本如下所示这可以用 css 来完成还是需要使用 javascript 您可以使用 CSS3 以跨浏览器的方式做到这一点transform https developer mozilla org en CSS moz
如何将 HDMI 1.4a 兼容的立体信号从 OpenGL 应用程序输出到 3DTV？

我有一个 OpenGL 应用程序可以通过 HDMI 将立体 3D 视频输出到现成的电视但它目前要求显示器支持 1 4a 之前的手动选择正确格式的方法并排上下ETC 但是现在我需要支持一个仅支持 HDMI 1 4a 3D 信号的设备
在 Spark 结构化流中创建 Dataframe forEachWriter 以插入 kudu 表问题

我有一个问题我尝试寻找解决方案但无法找到任何解决方案并且希望获得任何指针所以我试图将 Spark 结构化流与 Apache Kudu 集成我正在从 Kafka 读取流并进行一些处理现在应该写入 Kudu 表问题是 Spark

在 Spark 结构化流中创建 Dataframe forEachWriter 以插入 kudu 表问题

在 Spark 结构化流中创建 Dataframe forEachWriter 以插入 kudu 表问题 的相关文章

随机推荐

热门标签

在 Spark 结构化流中创建 Dataframe forEachWriter 以插入 kudu 表问题的相关文章