ParDo 中的侧面输出 | Apache Beam Python SDK

2024-04-05

由于该文档仅适用于 JAVA，我无法真正理解它的含义。

它指出 -“虽然 ParDo 始终生成一个主输出 PCollection（作为 apply 的返回值），但您也可以让 ParDo 生成任意数量的附加输出 PCollection。如果您选择有多个输出，您的 ParDo 将返回所有输出 PCollection（包括主输出）捆绑在一起。例如，在 Java 中，输出 PCollections 捆绑在类型安全的 PCollectionTuple 中。

我理解捆绑在一起的含义，但是如果我在 DoFn 中生成一个标签，它是否会生成一个所有其他输出为空的捆绑包，并在代码中遇到它们时生成其他输出？或者它等待所有的产量准备好输入，然后将它们全部打包在一起输出？

文档中对此没有太多说明。虽然我认为它不会等待，只是在遇到时屈服，但我仍然需要了解发生了什么。

回答这个问题的最好方法是举一个例子。这个例子是可用于光束 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/cookbook/multiple_output_pardo.py.

假设您要运行字数统计管道（例如，计算每个单词在文档中出现的次数）。为此，您需要将文件中的行分割成单独的单词。考虑到您还想单独计算单词长度。你的分割变换会像这样：

with beam.Pipeline(options=pipeline_options) as p:

    lines = p | ReadFromText(known_args.input)  # Read in the file

    # with_outputs allows accessing the explicitly tagged outputs of a DoFn.
    split_lines_result = (lines
                          | beam.ParDo(SplitLinesToWordsFn()).with_outputs(
                              SplitLinesToWordsFn.OUTPUT_TAG_CHARACTER_COUNT,
                              main='words'))

    short_words = split_lines_result['words']
    character_count = split_lines_result[
        SplitLinesToWordsFn.OUTPUT_TAG_CHARACTER_COUNT]

在这种情况下，每个都是不同的PCollection，具有正确的元素。这DoFn将负责分割其输出，并通过标记元素来实现。看：

class SplitLinesToWordsFn(beam.DoFn):
  OUTPUT_TAG_CHARACTER_COUNT = 'tag_character_count'

  def process(self, element):
    # yield a count (integer) to the OUTPUT_TAG_CHARACTER_COUNT tagged
    # collection.
    yield pvalue.TaggedOutput(
        self.OUTPUT_TAG_CHARACTER_COUNT, len(element))

    words = re.findall(r'[A-Za-z\']+', element)
    for word in words:
      # yield word to add it to the main collection.
      yield word

正如您所看到的，对于主输出，您不需要标记元素，但对于其他输出则需要标记元素。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

ApacheBeam

ParDo 中的侧面输出 | Apache Beam Python SDK 的相关文章

在 DirectPipelineRunner 上使用自定义 DataFlow 无界源

我正在编写一个从 Kafka 0 8 读取的自定义 DataFlow 无界数据源我想使用 DirectPipelineRunner 在本地运行它但是我得到以下堆栈跟踪 Exception in thread main java lan
Go SDK Apache Beam：单例侧输入 Singleton for int 定义不明确

使用适用于 Apache Beam 的 Go SDK 我尝试使用侧面输入创建 PCollection 的视图但我收到这个奇怪的错误 Failed to execute job on ctx making side input 0 sing
无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道

我有两个独立的管道分别为 P1 和 P2 根据我的要求我只需要在 P1 完全完成执行后才运行 P2 我需要通过一个模板完成整个操作基本上模板在找到 run 方式即 p1 run 时就被创建所以我可以看到我需要使用两个不同的模板
Python Apache Beam 多重输出和处理

I am trying to run a job on Google Dataflow with the following process flow 本质上采用单个数据源根据字典中的某些值进行过滤并为每个过滤条件创建单独的输出我编写
如何停止谷歌云数据流中的流管道

我有一个正在运行的流数据流来读取 PUB SUB 订阅一段时间后或者可能是在处理一定量的数据后我希望管道自行停止我不希望我的计算引擎实例无限期地运行当我通过数据流控制台取消作业时它显示为失败的作业有办法实现这一点吗我错过了什么
使用 Apache Beam 查找 2 个列表的笛卡尔积

我有2个PCollections PCollection
apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用

我有一个数据流作业我将首先从 bigquery 查询中读取在标准 sql 中它在直接运行模式下完美运行但是我尝试在数据流运行程序模式下运行此数据流并遇到此错误响应 content 显然 use standard sql 参数在数
是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入？

在我的项目中我希望在 Google Dataflow 中使用流式传输管道来处理 Pub Sub 消息在清理输入数据时我还希望获得来自 BigQuery 的侧面输入这提出了一个问题将导致两个输入之一无法工作我在管道选项中设置了st
ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多
在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException

我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中它执行 https 调用想想 REST API 在我的本地环境中所有这些都可以在 DirectRun 中正常运行这是我的本地环境 apache beam 2
窗口后 Apache-beam 挂在 groupbykey 上 - 不触发

TLDR 如何使用 python SDK 更正触发计数窗口 Problem 我正在尝试创建一个用于转换和索引维基百科转储的管道目标是从压缩文件中读取只需一个进程并以流式传输方式因为该文件不适合 RAM 并行处理每个元素 ParDo
分析云数据流 BigQuery 吞吐量/管道

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳首先我刚刚创建了一个简单的流程从 BigQuery 读取数据约 25M 行总共 30GB 执行 JSON 提取按键进行简单的分组然后对分组进行聚合每个约 1
数据流：将 Top 模块与 Python SDK 结合使用：单元素 PCollection

我正在查看 incubator beam 存储库上的 word counting py 示例从数据流文档链接我想修改它以获得n 出现次数最多的这是我的管道 counts lines split gt gt beam ParDo Wor
在 Apache Beam 中监视与文件模式匹配的新文件

我在 GCS 或其他受支持的文件系统上有一个目录外部进程正在向该目录写入新文件我想编写一个 Apache Beam 流式传输管道它可以连续监视此目录中的新文件并在每个新文件到达时读取和处理它这可能吗从 Apache Beam 2
如何使用 Apache Beam 从 Google Pub/Sub 访问消息 ID？

我一直在 Python 2 7 16 上使用 2 13 0 SDK 测试 Apache Beam 以流模式从 Google Pub Sub 订阅中提取简单消息并写入 Google Big Query 表作为此操作的一部分我尝试使用 P
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中？

我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道

我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道但我一直遇到此错误Failed to construct instance from factory method Da
将新文件添加到 Cloud Storage 时触发 Dataflow 作业

我想在将新文件添加到存储桶时触发数据流作业以便处理新数据并将其添加到 BigQuery 表中我看到云函数可以被触发 https cloud google com functions calling google cloud storag
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl
如何在流式管道中按小捆绑的 N 个元素进行批处理？

我已经按照此答案中的描述实现了 N 个元素的批处理谷歌数据流管道中的数据存储输入可以一次处理一批 N 个条目吗 https stackoverflow com questions 35065109 can datastore input

随机推荐

如何避免“WindowsError：[错误5]访问被拒绝”

有重新创建文件夹的脚本 Remove folder if exists with all files if os path isdir str os path realpath my folder shutil rmtree os path
安卓框架

如果有人问我以下问题 Android 框架是什么它有什么作用我该怎么回答呢另外 API 例如活动管理器位置管理器等在框架中的作用是什么 What an Android Framework is What does it do 支持
OpenCV：断言失败（（img.深度（）== CV_8U || img.深度（）== CV_32F）&& img.type（）== templ.type（））

我从上面得到这个错误不知道如何避免它我的目的是获取屏幕截图然后对其进行模板匹配看看此时屏幕上是否显示图标到目前为止这只是图标的位置我的代码 include opencv2 highgui highgui hpp include
download.file 中的错误：不支持方案

我需要从下载一些 csv 文件http www elections state md us http www elections state md us 这是我的代码 url lt http www elections state md
多层次亲子关系

我有一个这样的表我想输出这样的层次结构 a c x1 a c x2 a d y1 a d y2 b e z b f q 我搜索了一些 CTE 示例但它们仅列出了层次结构的 2 2 组合不依赖父子深度如何才能达到这个结果呢您想要使用递
多个requestAnimationFrame性能

如果我要做多个动画添加多个动画在性能方面是否可以 requestAnimationFrame回调 F 例如 function anim1 animate element 1 function anim2 animate element 2
角度拦截器 - 类型“Observable”不可分配给类型“Observable>”

我刚刚从一篇文章中复制了这段代码 import Injectable from angular core import HttpEvent HttpInterceptor HttpHandler HttpRequest HttpErrorR
日期间隔不应超过 20 天

我有起始日期和截止日期如果用户输入起始日期和截止日期它们之间的差距不应超过 20 天即如果用户从 date 30 08 2018 到 date 26 09 2018 输入差距超过 20 天所以我想使用 jquery 显示警报下
移动构造函数和初始化列表

我想为需要成为值类型的特定类型实现移动构造函数无复制构造函数 boost unordered map 我们称这种类型为Composite Composite有以下签名 struct Base Base stuff no default c
如何在 SQL Server 中创建唯一的随机字母数字序列

我想将唯一的随机字母数字序列作为数据库表的主键序列中的每个字符都是字母 a z 或数字 0 9 我想要的示例 kl7jd6fgw zjba3s0tr a9dkfdue3 我想创建一个可以处理该任务的函数您可以使用唯一标识符 https
React Native TouchableOpacity onPress 问题

我有一个简单的图标按钮如下所示 class SideIcon extends Component render return
使用递归将列表分解为子列表

我正在尝试使用类型声明编写一个函数 Int Bool gt Int 我希望该功能仅添加Ints 到同一个嵌套子列表如果布尔值是True 但是如果布尔值是False 我想要Int与下一个相关联True要添加到 a 的布尔值new子列表例如
内存不足，无法继续运行 Java 运行时环境

我的系统有 4 GB RAM 运行 Windows 操作系统我安装了 VMWare 来设置具有 2GB RAM 的 Ubuntu 虚拟机在 Ubuntu 中我打开 Eclipse 并开始编码 Eclipse 开始一次又一次关闭我开始
如何将 HostControl 实例传递给 TopShelf 中的自定义主机服务？

This 问题已在其他地方提出 https stackoverflow com questions 28740658 how to detect if topshelf is running in console mode 但没有迹象表明我
如何更新 SQL 中的选择性字段（保留部分字段不变）？

我想用两个日期更新记录如果没有要更新的新值则保持现有数据不变这是一个示例表记录 id last foo last bar 1 2010 05 30 2010 05 30 我正在使用的查询 UPDATE sampledates SET
Android 使用 P12 证书签署数据

因此我搜索了一段时间但找不到真正需要的东西因为出现的每个结果都与签署实际的包有关所以基本上我所做的就是 Web 服务受到会话管理器的保护为了获取会话号需要将 GUID 发送到 Web 服务在 iOS 方面我们能够获得此设置
通过 AWS API Gateway 集成模板使用 DynamoDB 的 lastEvaluatedKey 进行扫描

我使用 AWS APIGateway 集成模板直接扫描 dynamoDB 而不是编写单独的 lambda 来处理请求响应但是扫描有 1MB 的限制这导致扫描仅限于部分数据根据文档我们应该重新扫描直到找到匹配项或使用 lastE
如何将 .csv 文件导入 R？

我有这个 csv 文件 ID GRADES GPA Teacher State 3 C 2 Teacher3 MA 1 A 4 Teacher1 California 我想做的是使用 R 统计软件读取文件并将标题读入某种列表或数组我是
有没有具有这些功能的轻量级 JDBC 包装器？

命名参数就像 Spring 中的 JdbcTemplate JDBC 连接设置的 XML 配置用于查询的 XML 配置类似休眠的东西
ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多

ParDo 中的侧面输出 | Apache Beam Python SDK

ParDo 中的侧面输出 | Apache Beam Python SDK 的相关文章

随机推荐

热门标签