ApacheBeam

Google Dataflow：在流式管道中的 BigQuery 中插入 + 更新

主要对象一个 python 流管道我在其中读取来自 pub sub 的输入分析输入后有两个选项可用如果 x 1 gt 插入如果 x 2 gt 更新 Testing 使用apache beam函数无法完成此操作因此需要使用Big

python googlebigquery googleclouddataflow ApacheBeam

在 BigQueryIO.write() 操作之后执行进程

我有一个以 BigQuery 表作为接收器的管道我需要在数据写入 BigQuery 后执行一些步骤这些步骤包括对该表执行查询从中读取数据以及写入不同的表如何实现以上目标我是否应该为后者创建一个不同的管道但在第一个管道之后调用它将

googleclouddataflow ApacheBeam

使用状态和定时器进行处理

在 Beam Dataflow 运行程序中使用状态处理和计时器从 v2 1 0 开始是否有任何准则或限制例如状态大小或更新频率的限制等候选流管道将广泛使用状态和计时器来表示用户会话状态并使用 Bigtable 作为持久存储以下是

googleclouddataflow ApacheBeam

Flink 上运行 Beam pipeline 时出现与内存段相关的 EOFException

我正在尝试在我们的测试集群上的 Flink 上运行 Apache Beam 管道它一直失败EOFException at org apache flink runtime io disk SimpleCollectingOutputVie

apacheflink ApacheBeam

Beam/Google Cloud 数据流 ReadFromPubsub 缺失数据

我有 2 个数据流流管道 pubsub 到 bigquery 代码如下 class transform class beam DoFn def process self element publish time beam DoFn Time

Scio：使用 Pub/Sub 作为集合源时，groupByKey 不起作用

我改变了来源WindowsWordCount 示例 https github com spotify scio blob master scio examples src main scala com spotify scio exampl

ApacheBeam spotifyscio

使用 Apache Beam io.jdbc.ReadFromJdbc 时出现错误 BEAM：逻辑类型：javasdk：v1

我正在尝试使用 Apache Beam 的 python SDK 读取 postgres 表我已经按照文档所述安装了 Java SDK 我正在使用最新版本我的代码如下 import logging import typing impor

python JDBC ApacheBeam

在 Apache Beam PCollection 中使用 AutoValueSchema 会出现“RuntimeException：创建者参数 arg0 不对应于架构字段”

我试图拥有我创建的 AutoValue 定义对象的 PCollection 并且我添加了适当的注释来通过以下方式推断架构DefaultSchema AutoValueSchema class 就像这样 DefaultSchema AutoV

Java ApacheBeam autovalue

如何在Beam 2.0中获取复合PTransform中的PipelineOptions？

升级到 Beam 2 0 后Pipeline类没有getOptions 不再上课了我有一个复合的PTransform这依赖于获取其选项expand method public class MyCompositeTransform exte

googleclouddataflow ApacheBeam

使用 PAssert containsInAnyOrder() 比较对象的测试管道

我正在为 Apache Beam 管道编写 JUnit 测试我开始使用 DoFnTester 但它已被弃用尽管 Apache Beam 测试您的管道文档中的示例引用了已被弃用的方法我现在使用推荐的 TestPipeline 和 PA

Java ApacheBeam

如何在kubernetes环境中使用spark配置beam python sdk

TLDR 如何使用 environment type EXTERNAL 或 PROCESS 配置 Apache Beam 管道选项描述目前我们在 Kubernetes 中有一个独立的 Spark 集群如下this https sta

Java apachespark Kubernetes SDK ApacheBeam

数据流管道和 pubsub 模拟器

我正在尝试设置我的开发环境我没有在生产中使用 google cloud pubsub 而是使用 pubsub 模拟器进行开发和测试为了实现这一点我设置了以下环境变量 export PUBSUB EMULATOR HOST localh

使用 Google DataFlow/Apache Beam 并行化图像处理或爬行任务是否有意义？

我正在考虑将 Google DataFlow 作为运行管道的选项该管道涉及以下步骤从网络下载图像处理图像我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期因此我不需要自己启动或停止它们但我遇到的所有示例都使用它来执行数

如何在 Cloud Dataflow 中使用 TextIO.Read 将多个文件与名称进行匹配

我有一个 gcs 文件夹如下所示 gs

在 Apache Beam 中使用 defaultNaming 进行动态窗口写入

我正在关注并回答这个帖子 https stackoverflow com questions 48519834 how to write to a file name defined at runtime 48531741 48531741

Java googleclouddataflow ApacheBeam apachebeamio

数据流中的 nltk 依赖关系

我知道外部Python依赖项可以通过requirements txt文件输入到Dataflow中我可以在我的数据流脚本中成功加载 nltk 然而 nltk 通常需要下载更多文件例如停用词或 punkt 通常在本地运行脚本时我可以运行

googlecloudplatform googleclouddataflow ApacheBeam googledataapi

如何在私有子网上运行Dataflow python？

Apache Beam 2 1 0 添加了对在私有子网上的 Dataflow 运行器上提交作业且无需公共 IP 的支持这是我们需要满足防火墙规则的我打算使用squid代理来访问apt get pip等安装python依赖项代理实例已经

python googleclouddataflow ApacheBeam

在使用窗口化的 GroupByKey 之后，Beam pipeline 不会产生任何输出，并且出现内存错误

purpose 我想加载流数据然后添加一个键然后按键计数 problem 当我尝试使用流方法无界数据加载和按键分组大数据时 Apache Beam Dataflow pipline 出现内存错误因为看起来数据是在 group by

googleclouddataflow ApacheBeam spotifyscio

Eclipse 上使用 Dataflow Runner 的 Apache Beam MinimalWordcount 示例

我正在尝试在 Windows 上使用 Eclipse 中的 DataFlowRunner 运行 MinimalWordCount 示例使用 MinimalWordCount gt 在 Eclipse 中运行作为 Java 应用程序它与使

Java eclipse googleclouddataflow dataflow ApacheBeam

Apache Beam：使用 Withtimestamp 分配事件时间时出错

我有一个无限的 Kafka 流发送具有以下字段的数据 identifier xxx value 10 0 ts 2019 01 16T10 51 26 326242 0000 我使用 kafka 的 apache beam sdk 读取流

Streaming ApacheBeam