Spark Streaming中如何处理旧数据并删除处理后的数据

2024-01-07

我们正在运行一个 Spark 流作业，从目录中检索文件（使用 textFileStream）。我们担心的一个问题是作业已停止但文件仍在添加到目录中的情况。一旦作业再次启动，这些文件就不会被拾取（因为它们在作业运行时不是新的或已更改），但我们希望处理它们。

1）有解决办法吗？有没有办法跟踪已处理的文件以及我们可以“强制”拾取旧文件吗？

2）有没有办法删除处理过的文件？

下面的文章几乎涵盖了您的所有问题。

https://blog.yanchen.ca/2016/06/28/fileinputdstream-in-spark-streaming/ https://blog.yanchen.ca/2016/06/28/fileinputdstream-in-spark-streaming/

1）有解决办法吗？有没有办法跟踪已处理的文件以及我们可以“强制”拾取旧文件吗？

启动作业/应用程序时，流读取器使用系统时钟启动批处理窗口。显然之前创建的所有文件都会被忽略。尝试启用检查点.

2）有没有办法删除处理过的文件？

删除文件可能是不必要的。如果检查点起作用，Spark 会识别未处理的文件。如果由于某种原因要删除文件，请实现自定义输入格式和阅读器（请参阅文章）来捕获文件名并酌情使用此信息。但我不推荐这种方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStreaming

Spark Streaming中如何处理旧数据并删除处理后的数据的相关文章

从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data

随机推荐

对 Microsoft Graph API 执行 POST 请求以将成员添加到 AD 组

我正在尝试通过 Azure 函数将成员添加到调用 Microsoft Graph API 的 AD 组通过 Graph API 执行 GET 请求非常简单直接但我找不到任何示例如何执行 Graph API 的 post 请求我确实有一
数组和可观察数组有什么区别？

在 TypeScript 中主要区别是什么any and Observable
Scrapy - 设置 TCP 连接超时

我正在尝试通过 Scrapy 抓取网站然而该网站有时非常慢浏览器第一次请求时几乎需要 15 20 秒才能响应不管怎样有时当我尝试使用 Scrapy 抓取网站时我不断收到 TCP 超时错误即使该网站在我的浏览器上打开得很好这
测试期间的 EF Core 内部缓存和许多 DbContext 类型

我有很多个测试班每个班有几十个测试我想隔离测试而不是大型上下文MyDbContext I use MyDbContextToTestFoo MyDbContextToTestBar MyDbContextToTestBaz等等所以我
SSLContext 和 SSLSocketFactory createSocket 线程安全吗？

在我的测试中我能够毫无问题地使用两者但我找不到说明 SSLSocketFactory createSocket 是否线程安全的文档可以在多个线程中使用同一个 SSLSocketFactory 来创建 SSL 套接字吗我的应用程序使用
根据当前视图处理 ViewExpiredException

我在我的项目中使用 JSF 2 0 和 Primefaces 我有两个 xhtml 页面即 Cars xhtml 和 Bikes xhtml 我正在使用 ViewScoped 支持 bean 目前如果从两个页面中的任何一个获取视图过期异
AudioQueueBuffers 之间的爆裂噪音

我正在尝试使用 Core Audio AudioQueue Swift 3 播放纯正弦波音调它播放得很好但每次调用 AudioQueueOutputCallback 用音频数据填充新缓冲区时我都会听到爆裂声我的 AudioStrea
Eclipse 的“Google Maps API v3 for GWT”项目示例

Google 在此发布了 GWT 的官方地图 v3 APIhttps groups google com forum topic gwt google apis 6SO5kCDqb k https groups google com for
识别最近的网格点

我有三个数组 lat 15 15 25 15 75 16 30 long 91 91 25 91 75 92 102 data array 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 99 9 99 9 99 9
我的 pdf 文件是否采用 UTF-8 编码？

我想知道 pdf 文件是否以 UTF 8 编码如何检查pdf文件中使用了哪种字符编码 PDF 是二进制文件而不是文本文件像 UTF 8 这样的字符编码仅在文本文件 txt html xml csv 的上下文中才有意义因此 PDF 绝
为什么 MongoDB 配置服务器必须只有一个或三个？

在阅读了 MongoDB 分片架构的官方文档后我还没有找到为什么需要一到三个配置服务器而不是其他数量 The 有关配置服务器的 MongoDB 文档 https docs mongodb org v3 0 core sharded cl
栈帧和作用域之间有什么关系？

最近我正在学习Python 中的范围界定我了解什么是堆栈框架但我对堆栈框架和作用域之间的关系和区别感到困惑我通过 Python计算与编程简介这本书来学习Python 它没有具体阐明这两个术语范围只是 LEGB 之一本地封闭全
PowerMockito 在尝试存根私有重载方法时抛出 NullPointerException

我仍在尝试检查是否bar Alpha Baz called bar Xray Baz 使用 PowerMockito 如bar Xray Baz is private 考虑到我的 MCVE 课程实际上没有调用后者Foo以下我上过同一
ARM 汇编器中的寄存器操作数是如何编码的？

我反编译了一些ARM ELF文件并阅读了汇编代码但是我不明白一些代码是如何翻译成助记符的例如我得到这样的代码 hex code mnemonic binary 0xb480 push r7 1011 0100 1000 0000 0x
有没有办法正确模拟重新选择选择器以进行单元测试？

我的项目中有一个非常复杂的选择器结构某些选择器可能最多有 5 层嵌套因此其中一些很难通过传递输入状态进行测试我想改为模拟输入选择器然而我发现这实际上是不可能的这是最简单的例子 selectors1 js export const
PHP 的 create_function() 与仅使用 eval()

在 PHP 中您有 create function 函数它创建一个唯一的命名 lambda 函数如下所示 myFunction create function foo return foo myFunction bar Returns
Dapper 批量插入返回序列 ID

我正在尝试使用 Dapper 通过 Npgsql 执行批量插入这会返回新插入行的 id 我的两个示例中都使用了以下插入语句 var query INSERT INTO MyTable Value VALUES Value RETURNIN
Java 数组索引越界异常

当我需要将 5 个用户输入的值存储到一个数组中将其发送到一个方法并查找并显示最低值时我一直在研究这个基本的 java 程序该程序很简单并且可以运行但是当我输入最后一个数字时出现错误线程 main 中的异常 java lang
调用 setCenter 后 OpenLayers，地图仍处于 0,0 位置

我尝试通过 setCenter 方法设置地图中心但仍然不起作用地图不动我尝试使用从投影到地图投影的变换但没有成功这是代码的一部分谢谢
Spark Streaming中如何处理旧数据并删除处理后的数据

我们正在运行一个 Spark 流作业从目录中检索文件使用 textFileStream 我们担心的一个问题是作业已停止但文件仍在添加到目录中的情况一旦作业再次启动这些文件就不会被拾取因为它们在作业运行时不是新的或已更改但我们希望

Spark Streaming中如何处理旧数据并删除处理后的数据

Spark Streaming中如何处理旧数据并删除处理后的数据 的相关文章

随机推荐

热门标签

Spark Streaming中如何处理旧数据并删除处理后的数据的相关文章