ApacheBeam

无论如何，是否可以在数据流管道中共享状态变量？

我正在用 python 制作数据流管道我想跨管道转换和跨工作节点共享全局变量例如全局变量跨多个工作人员有什么办法可以支持这个吗提前感谢有状态处理可用于在特定节点的工作人员之间共享状态但无法在转换之间共享 https beam

googlecloudplatform googleclouddataflow ApacheBeam

有没有一种方法可以使用 Apache Beam FileIO 为每条记录写入一个文件？

我正在学习 Apache Beam 并尝试实现类似于 distcp 的东西我使用 FileIO read filepattern 来获取输入文件但是在使用 FileIO write 写入时文件有时会合并在作业执行之前知道分区计数是不

ApacheBeam apachebeamio

从 Beam 管道连接 google cloud sql postgres 实例

我想从在谷歌数据流上运行的 apache beam 管道连接谷歌云 sql postgres 实例我想使用 Python SDK 来完成此操作我无法为此找到适当的文档在云SQL如何指导我没有看到任何数据流文档 https cloud

python postgresql googlecloudsql ApacheBeam

排查 apache beam 管道导入错误 [BoundedSource 对象大于允许的限制]

我有一堆文本文件 1M 存储在谷歌云存储上当我将这些文件读入 Google Cloud DataFlow 管道进行处理时我总是收到以下错误 Total size of the BoundedSource objects returned

python googlecloudstorage googleclouddataflow dataflow ApacheBeam

使用默认触发器在窗口中消耗无限数据

我有一个Pub Sub主题订阅并希望在一个订阅中消费和聚合无限数据Dataflow 我使用固定窗口并将聚合写入 BigQuery 读取和写入没有窗口和聚合工作正常但是当我将数据通过管道传输到固定窗口以计算每个窗口中的元素时

googleclouddataflow ApacheBeam

Apache Beam - 跳过管道步骤

我正在使用 Apache Beam 设置一个由 2 个主要步骤组成的管道使用 Beam Transform 来转换数据将转换后的数据加载到 BigQuery 管道设置如下所示 myPCollection org apache beam

Java googlecloudplatform ApacheBeam

使用 Python SDK 进行数据流流式传输：将 PubSub 消息转换为 BigQuery 输出

我正在尝试使用数据流读取 pubsub 消息并将其写入大查询我获得了 Google 团队的 alpha 访问权限并且已经使提供的示例正常工作但现在我需要将其应用到我的场景中发布订阅有效负载 Message data datetime

python googlebigquery googleclouddataflow ApacheBeam dataflow

Cloud Dataflow - Dataflow 如何实现并行性？

我的问题是在幕后对于逐元素 Beam DoFn ParDo 云数据流如何并行工作负载例如在我的 ParDO 中我向外部服务器发送一个针对一个元素的 http 请求我使用了 30 个工人每个工人有 4vCPU 这是否意味着每个工

googleclouddataflow ApacheBeam

运行梁管道时，“PBegin”对象没有属性“windowing”

我在运行数据流作业时发现 PBegin 对象没有属性 windowing 我在 pardo 函数中调用 connectclass 类我正在尝试从 Beam python SDK 连接 NOSQL 数据库并运行 sql 从表中提取数据然后

python3x googleclouddataflow ApacheBeam apachebeamio

apache beam 2.7.0 在 utf-8 编码法语字符中崩溃

我正在尝试将 csv 从 google 云平台的存储桶写入数据存储区其中包含法语字符口音但我有一条有关解码的错误消息尝试从进行编码和解码后latin 1 to utf 8 没有成功使用unicode unicodedata 和编解

python27 googlecloudplatform googleclouddatastore ApacheBeam

带有数据流的 Apache Beam Go SDK

我一直在使用 Go Beam SDK v2 13 0 但无法获取字数统计示例致力于 GCP 数据流它进入崩溃循环尝试启动org apache beam runners dataflow worker DataflowRunnerHarne

Java go protocolbuffers googleclouddataflow ApacheBeam

使用 Apache Beam 将插入流式传输到 BigQuery 时如何指定 insertId

BigQuery 支持流式插入的重复数据删除如何通过 Apache Beam 使用此功能 https cloud google com bigquery streaming data into bigquery dataconsisten

Java googlecloudplatform googlebigquery ApacheBeam apachebeamio

Dataflow 模板是否支持 BigQuery 接收器选项的模板输入？

由于我正在运行一个正在运行的静态数据流因此我想从此模板创建一个模板以便我可以轻松地重用该数据流而无需输入任何命令行继创建模板官方的教程没有提供模板输出的示例我的数据流以 BigQuery 接收器结束该接收器接受一些参数例如用于

python googleclouddataflow ApacheBeam

如何将 PCollection 转换为 python 数据流中的列表

我有一个 PC 合集P1包含 ID 字段我想从 PCollection 中获取完整的 ID 列作为列表并将该值传递给 BigQuery 查询以过滤一个 BigQuery 表执行此操作最快且最优化的方法是什么我是数据流和大数据的新手

googlebigquery googleclouddataflow ApacheBeam

有状态索引导致 ParDo 在 Dataflow Runner 上单线程运行

我们使用 Beam 的 Java SDK 2 0 0 在 ParDo 中生成顺序索引就像Beam中简单的有状态索引示例一样有状态处理简介我们用一个ValueState

googleclouddataflow ApacheBeam

Apache Beam：固定窗口触发器

根据下列的文档中指出如果您没有明确指定触发器您会得到如下所述的行为如果未指定默认行为是在以下情况下首先触发水印经过窗口末尾然后每隔一段时间再次触发时间有迟到的数据对于固定窗口来说这种行为也成立吗例如您假设固定窗口应该有

googleclouddataflow ApacheBeam

Beam Streaming 管道不会将文件写入存储桶

UI 在 GCP Dataflow 上有一个 python 流管道可以从 PubSub 读取数千条消息如下所示 with beam Pipeline options pipeline options as p lines p read

python3x googleclouddataflow ApacheBeam

使用 Apache Beam 按键处理事件的总排序

问题背景我正在尝试从实时流中生成每个键的事件项的总线性顺序其中顺序是事件时间源自事件有效负载 Approach 我曾尝试使用流式传输来实现此目的如下所示 1 设置一个非重叠的顺序窗口例如时长5分钟 2 建立允许的迟到可以丢弃

googleclouddataflow ApacheBeam

如何使环境变量作为python sdk中的环境变量到达Dataflow工作人员

我用 python sdk 编写自定义接收器我尝试将数据存储到AWS S3 要连接 S3 需要一些凭据密钥但出于安全原因最好在代码中设置我想让环境变量作为环境变量到达数据流工作人员我该怎么做一般来说为了向您不想硬编码的工作人

googlecloudplatform googleclouddataflow ApacheBeam

Dataflow/Apache Beam 在哪个阶段确认 pub/sub 消息？

我有一个数据流流作业其中 Pub Sub 订阅作为无限源我想知道数据流在哪个阶段确认传入的发布订阅消息在我看来如果在数据流管道的任何阶段抛出异常消息就会丢失另外我想知道如何使用发布订阅无界源编写数据流管道的最佳实践以便在

googlecloudplatform googlecloudpubsub ApacheBeam dataflow