Spark SQL + Window + Streaming 问题 - 使用 Spark Streaming 运行时，Spark SQL 查询执行时间较长

2023-12-28

我们期待使用 Spark Streaming（带有 Flume）和带有窗口的 Spark SQL 来实现一个用例，使我们能够对一组数据执行 CEP 计算。（有关如何捕获和使用数据的信息，请参阅下文）。这个想法是使用 SQL 来执行一些符合某些条件的操作。。基于每个传入事件批次执行查询似乎非常慢（随着它的进展）。

这里慢意味着我配置了 600 秒的窗口大小和 20 秒的批处理间隔。（以每 2 秒 1 个输入的速度泵送数据）因此，在 10 分钟后，传入的输入将保持不变，因此执行 SQL 查询应该花费相同的时间。

但时间过去后，它开始花费更多时间并逐渐增加，因此对于大约 300 条记录， select count(*) 查询最初需要 1 秒，后来在 15 分钟后开始花费 2 到 3 秒并逐渐增加。

如果有人能提出更好的方法来实现这个用例，我将不胜感激。以下是我们为实现这一目标而执行的步骤 -

    //Creating spark and streaming context
    JavaSparkContext sc = new JavaSparkContext(sparkConf);
    JavaStreamingContext ssc = new JavaStreamingContext(sc, 20);
    JavaReceiverInputDStream<SparkFlumeEvent> flumeStream; = FlumeUtils.createStream(ssc, "localhost", 55555);

    //Adding the events on window
    JavaDStream<SparkFlumeEvent> windowDStream =
        flumeStream.window(WINDOW_LENGTH, SLIDE_INTERVAL);

    // sc is an existing JavaSparkContext.
    SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc);

    windowDStream.foreachRDD(new Function<JavaRDD<SparkFlumeEvent>, Void>()
    {

        public Void call(JavaRDD<SparkFlumeEvent> eventsData)
        throws Exception
        {
            long t2 = System.currentTimeMillis();
            lTempTime = System.currentTimeMillis();

            JavaRDD<AVEventPInt> inputRDD1 = eventsData.map(new Function<SparkFlumeEvent, AVEventPInt>()
            {
                @Override
                public AVEventPInt call(SparkFlumeEvent eventsData) throws Exception
                {
                ...
                    return avevent;
                }
            });
            DataFrame schemaevents = sqlContext.createDataFrame(inputRDD1, AVEventPInt.class);
            schemaevents.registerTempTable("avevents" + lTempTime);
            sqlContext.cacheTable("avevents" + lTempTime);

            // here the time taken by query is increasing gradually
            long t4 = System.currentTimeMillis();
            Long lTotalEvent = sqlContext.sql("SELECT count(*) FROM avevents" + lTempTime).first().getLong(0);
            System.out.println("time for total event count: " + (System.currentTimeMillis() - t4) / 1000L + " seconds \n");

            sqlContext.dropTempTable("avevents"  + lTempTime);
            sqlContext.clearCache();

            return null;

        }
    });

例如，假设我们想要根据日志级别确定一段时间内的事件计数。在 SQL 中，我们会发出以下形式的查询：

SELECT level, COUNT(1) from ambari GROUP BY level

但是使用 Scala Data Frame API，您可以发出以下查询：

ambari.groupBy("level").count()

此时，可以使用与本机 SQL 非常接近的东西进行查询，例如：

sqlContext.sql("SELECT level, COUNT(1) from ambari group by level")

这将返回与 DataFrame API 中返回的数据结构相同的数据结构。返回的数据结构本身就是一个数据框。

此时，还没有执行：数据帧上的操作被映射到 RDD 上的适当操作（在本例中）

RDD.groupBy(...).aggregateByKey(...))

我们可以通过对结果执行collect() 来强制执行，将执行结果放入驱动程序内存中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

SparkStreaming

apachespark13

Spark SQL + Window + Streaming 问题 - 使用 Spark Streaming 运行时，Spark SQL 查询执行时间较长的相关文章

嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
使用 Spark SQL 时找不到 Spark Logging 类

我正在尝试用 Java 进行简单的 Spark SQL 编程在程序中我从 Cassandra 表获取数据将RDD into a Dataset并显示数据当我运行spark submit命令我收到错误 java lang Class
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计

随机推荐

执行 aws s3 cp 命令时出现全局名称“ssl”未定义错误

我正在尝试使用 AWS CLI 命令将文件上传到 AWS S3 我使用的是RedHat 4操作系统的系统 Python版本是2 7 9 OpenSSL 版本为 0 9 8v 2012 年 4 月 19 日我已经安装了 AWS CLI 当我
Code::Blocks 出现 GLUT 编译错误

一周前当我第一次尝试使用 GLUT 并遵循本教程 http www sci brooklyn cuny edu goetz codeblocks glut 它工作正常没有任何错误现在一周后我安装了相同的软件相同的库但每次我尝试
将数据复制到同一个表中或从同一个表中复制数据，并将复制的数据中某一列的值更改为指定值

我想复制 SQL Server 2008 数据库中单个表中的一些数据并将其复制到同一个表中并将复制数据的一列中的值更改为单个指定数字这是一个例子在下面的名为Metric的表中数据是 Key Name MetricValue 112
在 WebView 中检查互联网连接

各位程序员大家好我的 WebView 应用程序出现问题我想在启动时添加一个连接检查当没有可用的 Internet 连接或 WebView 超时时该检查会弹出错误我无法自己完成它因为我是 Android 编程新手我还想添加一个
Java 中 HashMap 的迭代器

我尝试在 Java 中迭代 hashmap 这应该是一件相当容易的事情但是以下代码给我带来了一些问题 HashMap hm new HashMap hm put 0 zero hm put 1 one Iterator iter Ite
如何清除 Ruby 中的终端？

我想知道如何在 Ruby 中做我能做的事情system clear 在C 我写了一个像这样的程序 puts amit system clear 我希望执行此命令后清除控制台但它不起作用如果你想要一些不太便携的东西你可以尝试 syste
WCF 和 ColdFusion

我有一个 WCF WebService 我想使用 ColdFusion 来使用常规过程是使用 CFHTTP 来处理 WSDL 并在正文中包含 SOAP 请求通常情况下这是有效的一切都工作正常
将 Spring Security 3 与 cookie 结合使用

我有一个用 Java 构建的需要授权的应用程序但是身份验证部分由不同单独的应用程序不是 Java 处理用户登录到身份验证应用程序该应用程序会设置 cookie 如果用户被授权访问 Java 应用程序他们将被授权应用程序重定向到
需要在 Android 中将图像发布到 Tumblr 博客

我需要将图片发布到 Tumblr 我读了这个http www tumblr com docs en api v2 auth http www tumblr com docs en api v2 auth我开始知道我需要获取用户信息才能获取博
Rails Mailer Net::SMTPServerBusy

在我的 Rails 站点上当我尝试通过 GMail 发送邮件时它工作得很好但是当我尝试通过 MandrillApp 发送它时它给出以下错误 RController create 是调用交付命令的地方 Net SMTPServerBu
合并排序数组[重复]

这个问题在这里已经有答案了可能的重复合并两个排序列表 https stackoverflow com questions 2348374 merging two sorted lists N路合并算法 https stackoverfl
一个大的包含文件还是几个较小的包含文件？

我正在编写一些jsp 我想知道是否最好有一个大的包含文件我将包含在每个页面中或者几个较小的文件我将根据需要仅包含在某些页面上任何给定页面最多只需要调用几个方法我主要关心的是性能其次是维护我们正在使用 jsp include 指
通过接口使用 Function<> ？

我已经有一个现有的泛型类 public class Foo
如何一点点构建一个Linq to Sql where子句？

我正在参数类中传递一组查询字符串参数用于查询图像数据库每次调用时某些参数可能为空所以在 sql 中我会建立这样的查询 if parameters Value1 null sql Append sql where clause if
Android 位图内存问题 - ARGB_4444 与 RGB_565

将图像加载到位图中时哪种方法消耗更多内存 ARGB 4444 与 RGB 565 Thanks 它们占用相同数量的内存看到这些数字了吗它们告诉您每个分量 A R G B 的位数将它们相加即可得到每个像素的总位数不过如果您不需要这
使用 Win32 的带有主题的透明单选按钮控件

我正在尝试在启用主题时仅使用 Win32 制作具有透明背景的单选按钮控件这样做的原因是允许将单选按钮放置在图像上并显示图像而不是灰色的默认控件背景开箱即用的是该控件将具有灰色的默认控件背景以及通过处理以下任一内容来更改此背景的标准方
查找曲线中的增加和减少趋势 MATLAB

a 2 3 6 7 2 1 0 01 6 8 10 12 15 18 9 6 5 4 2 这是一个数组我需要提取增加和减少趋势开始的确切值数组的输出a将 2 first element 2 6 9 a 2 3 6 7 2 1 0 01
svn check out 有问题无法读取块大小

我遇到了以下错误它检查了一段时间然后向我抛出一个错误 SVN 1 6 请让我知道具体应该是什么配置 REPORT of svn svn vcc default Could not read chunk size connection wa
在 OnLoad 或 OnInit 期间动态添加控件？

我想根据某些特定条件向页面添加更多控件这些控件不需要任何 ViewState 或绑定数据它就像静态链接一样简单我想知道我可以在哪里编写代码里面OnLoad or OnInit方法为什么如果我把它放在里面OnLoad 我应该添加以
Spark SQL + Window + Streaming 问题 - 使用 Spark Streaming 运行时，Spark SQL 查询执行时间较长

我们期待使用 Spark Streaming 带有 Flume 和带有窗口的 Spark SQL 来实现一个用例使我们能够对一组数据执行 CEP 计算有关如何捕获和使用数据的信息请参阅下文这个想法是使用 SQL 来执行一些符合某些条

Spark SQL + Window + Streaming 问题 - 使用 Spark Streaming 运行时，Spark SQL 查询执行时间较长

Spark SQL + Window + Streaming 问题 - 使用 Spark Streaming 运行时，Spark SQL 查询执行时间较长 的相关文章

随机推荐

热门标签

Spark SQL + Window + Streaming 问题 - 使用 Spark Streaming 运行时，Spark SQL 查询执行时间较长的相关文章