调用一个函数，每个元素都是 Databricks 中的一个流

2023-12-12

我在 Databricks 中有一个 DataFrame 流，我想对每个元素执行一个操作。在网上我找到了特定目的的方法，比如将其写入控制台或转储到内存中，但我想添加一些业务逻辑，并将一些结果放入Redis中。

更具体地说，这就是非流情况下的样子：

val someDataFrame = Seq(
  ("key1", "value1"),
  ("key2", "value2"),
  ("key3", "value3"),
  ("key4", "value4")
).toDF()

def someFunction(keyValuePair: (String, String)) = {
  println(keyValuePair)
}

someDataFrame.collect.foreach(r => someFunction((r(0).toString, r(1).toString)))

但如果someDataFrame不是一个简单的数据帧而是一个流数据帧（确实来自Kafka），错误信息是这样的：

org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();;

有人可以帮我解决这个问题吗？

一些重要的注意事项：

我已阅读相关文档，例如 Spark Streaming 或 Databricks Streaming 以及其他一些描述。
我知道一定有类似的东西start() and awaitTermination，但我不知道确切的语法。这些描述没有帮助。
列出我尝试过的所有可能性需要好几页，所以我宁愿不提供它们。
I do not想要解决显示结果的具体问题。 IE。请不要提供此特定案例的解决方案。这someFunction看起来像这样：

val someData = readSomeExternalData()
if (condition containing keyValuePair and someData) {
  doSomething(keyValuePair);
}

（问题Spark 结构化流中 ForeachWriter 的用途是什么？没有提供有效的示例，因此没有回答我的问题。）

下面是一个使用 foreachBatch 读取数据的示例，通过流 api 将每个项目保存到 Redis。

与之前的问题相关（DataFrame 到 RDD[(String, String)] 转换)

// import spark and spark-redis
import org.apache.spark._
import org.apache.spark.sql._
import org.apache.spark.streaming._
import org.apache.spark.sql.types._

import com.redislabs.provider.redis._

// schema of csv files
val userSchema = new StructType()
    .add("name", "string")
    .add("age", "string")

// create a data stream reader from a dir with csv files
val csvDF = spark
  .readStream
  .format("csv")
  .option("sep", ";")
  .schema(userSchema)
  .load("./data") // directory where the CSV files are 

// redis
val redisConfig = new RedisConfig(new RedisEndpoint("localhost", 6379))
implicit val readWriteConfig: ReadWriteConfig = ReadWriteConfig.Default

csvDF.map(r => (r.getString(0), r.getString(0))) // converts the dataset to a Dataset[(String, String)]
  .writeStream // create a data stream writer
  .foreachBatch((df, _) => sc.toRedisKV(df.rdd)(redisConfig)) // save each batch to redis after converting it to a RDD
  .start // start processing

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStreaming

Databricks

调用一个函数，每个元素都是 Databricks 中的一个流的相关文章

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa

随机推荐

如何在 ASP.NET Web 应用程序中显示 Windows.Form.MessageBox？

我想在 MessageBox 中显示验证错误消息我有四个文本框和一个按钮控件当我单击按钮控件时没有文本的文本框将显示在消息框中我几乎已经做到了这一点但问题是当我单击按钮时消息框将作为最小化窗口打开所以最终用户很难意识到我想在
在 Angular2 中动态创建输入表单

我试图提示用户为他们想要的每位客人填写一张表格只需姓名年级和年龄我首先问他们想要多少客人然后在下一页上我想向用户显示那么多表单像这样
为什么当“if not []”成功时“[] == False”的计算结果为False？

我问这个是因为我知道检查列表是否为空的Pythonic方法如下 my list if not my list print computer says no else my list isn t empty print computer sa
如何在 Google 图表中使用带有触发器的 HTML 工具提示：'both'

当用户单击悬停栏时我必须显示 HTML 工具提示使用 Google 图表我已经对此进行了编码并且当用户悬停栏时它显示工具提示
在 PHP 中加密 (mcrypt)，在 Ruby 中解密 (OpenSSL::Cipher)

我正在开发一个跨语言项目用 PHP 封装 ruby Sinatra API 以供另一个团队使用 API 公开的信息均不敏感但我们希望猜测 URL 的临时观察者不易访问这些信息 private function generateSlice
安装企业 iOS 应用程序时出现“不受信任的应用程序开发人员”消息

我正在开发一个企业应用程序当我在 iOS8 beta 中测试它时我看到了以下警报视图 Untrusted App Developer Do you trust the developer iPhone Distribution to r
加快 Windows 注册表搜索的 PowerShell 脚本速度（当前为 30 分钟）

我正在编写一个在 Windows 7 和 Windows 10 中使用的脚本用于在 HKLM Software Classes 中进行 Windows 注册表搜索到目前为止我的代码可以工作但速度非常慢大约需要 30 分钟才能完成
Python编写带有行和列转置的.csv文件[重复]

这个问题在这里已经有答案了我拥有一长串代码涉及读取不同的文件并最终将所有内容放入不同的 csv 这是我所有的代码 import csv import os path open files readlines with open C Us
PHP 模块显示在 phpinfo() 中，但不显示 php -m

我目前正在一个网站上工作我使用主机的控制面板激活了几个 php 模块现在当我尝试使用它们时它会返回致命错误未找到类我检查了phpinfo 课程出现在那里但是当我这样做时php m 他们失踪了服务器使用Nginx 可能是什么问题
没有对 .m matlab 文件进行 git CRLF 转换？

即使在 Windows 上 Matlab m 文件也使用 Unix LF 行结尾我希望设置 git 配置文件以便 m 文件not像其他常规文本文件一样转换回 CRLF 即我使用 LF 作为存储库中的默认样式即使它是 Windows 这
为什么对象类型的引用变量用作其他对象类型时必须进行强制转换

虽然Java中的所有类都是Object类的子类但与其他对象类型不同 Object类型的引用变量在没有强制转换的情况下不能分配给任何其他引用类型例如 public class Inheritance public static class
始终在 rootViewController 处打开应用程序

在我的应用程序中我希望用户始终看到rootViewController即使应用程序尚未完全终止打开应用程序时的视图也是如此我考虑过的一种选择是打电话abort in applicationWillResignActive 但这似乎不是
Java 和 SQLite 之间的时间戳差异

你好我有 SLQLite 数据库其中有表 water logs CREATE TABLE water logs id INTEGER PRIMARY KEY AUTOINCREMENT amount REAL NOT NULL icon
多显示器/双显示器系统上的 window.open() - 窗口在哪里弹出？

在多显示器系统上使用 javascript window open 时如何控制弹出窗口打开哪个显示器或显示空间中的哪个位置对我来说它似乎失去了控制而且它的行为是随机的 window open 双屏搜索的结果揭示了这个奇特的金块双
Discord py 向频道发送消息

我正在尝试使用 Discord py 库将消息从一个通道发送到另一个通道想法通道 1 用户无权读取和发送通道 2 中的消息我尝试编写应该发送这些消息的机器人例如用户编写发送 channel2 hello 机器人将此消息发送到通道
在 Python 中使用 BeautifulSoup 从 HTML 脚本标签中提取 JSON

我有以下 HTML 我应该如何从变量中提取 JSON window INITIAL STATE
Mac OS X Cocoa 多视图应用程序导航

我已经花了整整 2 天的时间试图弄清楚如何使用 NSViewControllers 来创建多视图应用程序这就是我所做的我有 2 个视图控制器和 MainMenu xib 的窗口我还有一个 AppController 它是两个视图控制器
python whois Windows 版

我尝试在 python 中获取 whois 我用这个http code google com p pywhois 但它只能在linux下运行可以在windows上运行吗目前我收到错误因为使用了内部linux命令whois 在 Wind
创建鼠标聚光灯

我正在尝试创建一个简单的应用程序将聚光灯放在鼠标光标位置周围使其他所有内容变暗并用鼠标移动聚光灯像这样的东西我对 Qt 没有太多经验我开始于这个例子却走不了多远我创建了一个位于顶部的窗口并设置了其不透明度但我不知道如何使其
调用一个函数，每个元素都是 Databricks 中的一个流

我在 Databricks 中有一个 DataFrame 流我想对每个元素执行一个操作在网上我找到了特定目的的方法比如将其写入控制台或转储到内存中但我想添加一些业务逻辑并将一些结果放入Redis中更具体地说这就是非流情况下的样

调用一个函数，每个元素都是 Databricks 中的一个流

调用一个函数，每个元素都是 Databricks 中的一个流 的相关文章

随机推荐

热门标签

调用一个函数，每个元素都是 Databricks 中的一个流的相关文章