处理数据流中一对多阶段的正确方法

2024-02-03

我有一个（Java）批处理管道，它遵循以下模式：

(FileIO)
(ExtractText > input=1 file, output=millions of lines of text)
(ProcessData)

ProcessData 阶段包含缓慢的部分（将数据与大白名单匹配），并且需要在多个工作线程上进行扩展，这应该不是问题，因为它只包含 DoFns。然而，我的一对多阶段似乎强制所有输出仅由一名工作人员处理（实例化更多工作人员会使它们除一名工作人员外全部闲置，或者如果启用自动缩放，则缩小规模）。

基于其他 stackoverflow 条目，我尝试通过Reshuffle.viaRandomKey()。这不起作用，因为Reshuffle包含一个GroupByKey它将所有结果加载到内存中，导致 OOM，即使我预先通过Window.<String>into(FixedWindows.of(Duration.standardSeconds(1)))

另一种选择是创建一个 CustomSource 来替换前两个阶段，但我发现这种方法不够充分，因为 1) 自定义源的文档严重缺乏 2) 需要更多的时间和代码来实现 3) 这种一对多在管道中间很可能会遇到问题，我无法创建自定义源。

我应该如何处理数据流管道中的一对多阶段？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

处理数据流中一对多阶段的正确方法的相关文章

R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
使用 Java 在 WebDriver 中按 Ctrl+F5 刷新浏览器

我已经使用 java 刷新了 WebDriver 中的浏览器代码如下 driver navigate refresh 如何使用 Java 在 WebDriver 中按 Ctrl F5 来做到这一点我认为您可以使用 WebDriver 和
Java、Oracle 中索引处缺少 IN 或 OUT 参数:: 1 错误

您好我使用 Netbeans 8 0 2 和 Oracle 11g Express Edition 在 JSF 2 2 中编写了一个图书馆管理系统我有几个名为书籍借阅者等的页面以及数据库中一些名为相同名称的表我的问题是这样的
Junit maven构建错误（maven-surefire-plugin：2.19.1：测试失败：分叉进程中出现错误）[重复]

这个问题在这里已经有答案了我通过引用创建了一个示例 struts 2 项目和 J unit 测试用例link http self learning java tutorial blogspot com au 2015 04 struts2
如何在远程 WebSphere 上进行 JNDI 查找期间解决 sun/io/MalformedInputException

我使用 WebSphere 8 5 来托管我的应用程序并在应用程序服务器上配置了一些 JDBC 资源我还使用瘦客户端运行时库开发了一个客户端应用程序当按以下方式执行 JNDI 查找时 env put Context INITIAL C
如何比较 Struts 2 中 url 请求参数中的单个字符

我正在读取具有单个字符的 url 参数它将是Y or N 我必须写一个条件来检查它是否Y or N并做相应的事情这是我写的但似乎不起作用总是转到其他地方网址是
定期更新 SWT 会导致 GUI 冻结

Problem 当 GUI 字段定期更新时 SWT 会冻结我想要一个基于 SWT 的 GUI 其中文本字段的值会定期递增最初我从单独的线程访问 textField 导致抛出异常线程 Thread 0 org eclipse swt S
有多少种方法可以将位图转换为字符串，反之亦然？

在我的应用程序中我想以字符串的形式将位图图像发送到服务器我想知道有多少种方法可以将位图转换为字符串现在我使用 Base64 格式进行编码和解码它需要更多的内存是否有其他可能性以不同的方式做同样的事情从而消耗更少的内存现在我正在
容器中的 JVM 计算处理器错误？

最近我又做了一些研究偶然发现了这一点在向 OpenJDK 团队抱怨之前我想看看是否有其他人观察到这一点或者不同意我的结论因此众所周知 JVM 长期以来忽略了应用于 cgroup 的内存限制众所周知现在从 Java 8 更新某
Intellij 中的 Google OR-Tools：UnsatisfiedLinkError

我正在建立一个应该使用 Google OR Tools 的 java 框架下面的代码编译成功但在运行时抛出异常 Exception in thread main java lang UnsatisfiedLinkError com go
Jenkins 的代码覆盖率 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何将 Observable>> 转换为 Observable>

我陷入了如何将以下可观察类型转换转换为我的目标类型的困境我有以下类型的可观察值 Observable
Java：java.util.ConcurrentModificationException

我正在制作 2D 目前正在研究用子弹射击子弹是一个单独的类所有项目符号都存储在称为项目符号的数组列表中当它超出屏幕一侧 Exception in thread main java util ConcurrentModification
为什么 Delphi 中的 ADO Next 记录处理速度变慢？

我有一个多年前开发的 Delphi 4 程序它使用Opus 直接访问 http sourceforge net projects directaccess 按顺序搜索 Microsoft Access 数据库并检索所需的记录 Delphi
JavaFX - 为什么多次将节点添加到窗格或不同的窗格会导致错误？

我现在正在学习基本的 JavaFX 我不明白我正在阅读的书中的这一说法不诸如文本字段之类的节点只能添加到一个窗格中一次将节点添加到多次窗格或不同的窗格将导致运行时错误我可以从书中提供的UML图看出它是一个组合但我不明白为什么库类
使用 secp256r1 曲线和 SHA256 算法生成 ECDSA 签名 - BouncyCastle

我正在尝试使用带有 secp256r1 曲线 P256 的 ECDSA 和用于消息哈希的 SHA256 算法生成签名我也在使用 Bouncy Castle 库下面的代码 public class MyTest param args pu
如何初始化静态地图？

你会如何初始化静态Map在Java中方法一静态初始化方法二实例初始化匿名子类或者还有其他方法吗各自的优点和缺点是什么这是说明这两种方法的示例 import java util HashMap import java util
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
Java：使用 Graph API 在线更新 Sharepoint 上的 docx 文件

我在使用 Java 在线更新 Sharepoint 上的 docx 文件时遇到问题首先我检查了构建 PUT 请求的 URL 此处并使用此请求 PUT drives drive id items item id content 我首先使
NHibernate - CreateCriteria 与 CreateAlias

假设以下场景 class Project public Job Job class Job public Name 假设我想使用 Criteria API 搜索其 Job 名称为 sumthing 的所有项目我可以使用 CreateAli

随机推荐

如何处理 AWS Athena 中的嵌入换行符

我在 AWS Athena 中创建了一个表如下所示 CREATE EXTERNAL TABLE IF NOT EXISTS default test line breaks col1 string col2 string ROW FORM
是否可以训练斯坦福 NER 系统来识别更多命名实体类型？

我现在正在使用一些 NLP 库 stanford 和 nltk 斯坦福大学我看到了演示部分但只是想问是否可以使用它来识别更多实体类型因此目前斯坦福的 NER 系统如演示所示可以将实体识别为人名称组织或位置但认可的组织仅限于大
从给定节点开始有向图的 BFS 遍历

我的基本理解广度优先搜索图的遍历是 BFS Start from any node Add it to queue Add it to visited array While queue is not empty Remove head f
添加用于将 Word 注释中的标题提取到 Excel 中的代码

我有一些代码用于将 Word 中的注释提取到 Excel 中但是它只提取一级标题直接标题我可以添加哪些代码来提取 Excel 中不同列中的不同标题级别我可以按样式选择这些不同的标题级别吗如果我使用 MyOwnHeading 样式
Maven：在 pom.xml 中配置并行构建

Maven 具有执行并行构建的能力 https cwiki apache org confluence display MAVEN Parallel builds in Maven 3 https cwiki apache org conf
jQuery 支持“:invalid”选择器

我收到以下控制台消息 16 04 01 292 Error Syntax error unrecognized expression unsupported pseudo invalid http localhost 8080 assets
JHipster：将根域重定向到 www

我正在从事搜索引擎优化工作我想https pomzen com https pomzen com被重定向到https www pomzen com https www pomzen com 是否可以在 JHipster 项目中完成还是在
防止表单提交后重新加载页面

有没有办法检测并停止页面是否正在重新加载我有一个页面在成功提交其中存在的表单后正在重新加载我想要一个事件侦听器来查看页面是否正在重新加载并应该阻止它重新加载我不能return false 成功提交注册表在你的html中
当 Svelte 重用父 dom 元素时如何确保仅本地转换

在 Svelte 中我有一个组件用于显示两个不同列表中的项目当这些项目从一个列表移动到另一个列表时它们使用过渡来动画进入或退出不过我还有一种方法可以过滤屏幕上显示的内容显示一组新的项目将使用相同的组件但具有不同的数据在这种情
在 ASMX 中测试自定义 SOAP 标头

ASMX生成的测试表单对于测试操作来说非常方便然而没有明显的方法来包含 SOAP 标头如何在不编写客户端程序来使用该服务的情况下测试标头如果您关心互操作性请不要使用 net 客户端应用程序来测试 net Web 服务使用 SOA
asp.net-mvc 在后期操作中获取字典或如何将 FormCollection 转换为字典

任何人都知道如何改变FormCollection into a IDictionary或者如何获得IDictionary在后期行动中这只是 Omnu 代码的等价物但对我来说似乎更优雅 Dictionary
如何重新加载当前状态？

我正在使用 Angular UI Router 并且想要重新加载当前状态并刷新所有数据重新运行当前状态及其父级的控制器我有 3 个州级别目录组织详细信息目录组织包含一个包含组织列表的表单击表中的项目加载目录组织详细信息使
Cordova - 如何不出现闪屏？

我不希望我的 Cordova 项目 Android 和 iOS 出现启动屏幕如何删除它我尝试禁用启动画面插件但它仍然出现怎么解决
安装Oracle表单并出现错误。无法启动安装程序 (555)

甲骨文形式下载地址 http www oracle com technetwork developer tools forms downloads index html http www oracle com technetwork dev
Json.Net布尔解析问题

JObject Parse jsonString 导致布尔数据出现问题例如json 是 BoolParam true 我用下面的代码来解析 JObject data JObject Parse str1 foreach var x in
Python 拼凑将 UCS-2 (UTF-16?) 读取为 ASCII

我对这个问题有点不知所措所以请提前原谅我的术语我在 Windows XP 上使用 Python 2 7 运行它我发现一些 Python 代码可以读取日志文件执行一些操作然后显示一些内容什么这还不够详细吗好的这是一个简化版本
falcon python 中的数据传递应用程序

在提出问题之前我想提一下我知道我可以使用 django 来制作应用程序但我需要使用 falcon 而不是其他我只是在寻找一种方法让我们看一个非常简单的场景以便我可以理解数据如何在应用程序的各个部分之间流动我有一个使用 html
删除所有重复的行，包括“参考”行[重复]

这个问题在这里已经有答案了我正在寻找一种方法来从向量中删除所有重复元素包括参考元素经过参考元素我的意思是当前在比较中使用的元素以搜索其重复项例如如果我们考虑这个向量 a c 1 2 3 3 4 5 6 7 7 8 我想获得 b
grpc/protobuffer 请求特定字段

GraphQL 允许您请求特定字段响应仅包含您请求的字段例如 graphql 查询如下 hero name 将返回 data hero name R2 D2 作为 graphQl 查询例如 hero name friends name
处理数据流中一对多阶段的正确方法

我有一个 Java 批处理管道它遵循以下模式 FileIO ExtractText gt input 1 file output millions of lines of text ProcessData ProcessData 阶段包含

处理数据流中一对多阶段的正确方法

处理数据流中一对多阶段的正确方法 的相关文章

随机推荐

热门标签

处理数据流中一对多阶段的正确方法的相关文章