ApacheBeam

从 Dataflow 进行流式传输时从 BigQuery 删除数据

从 Apache Beam 管道加载数据时是否可以从 BigQuery 表中删除数据我们的用例是这样的我们需要根据时间戳字段 Dataflow 从 Pubsub 主题提取消息的时间从表中删除 3 天前的数据是否建议这样做如果是有

googlebigquery googleclouddataflow ApacheBeam googlecloudpubsub

窗口后 Apache-beam 挂在 groupbykey 上 - 不触发

TLDR 如何使用 python SDK 更正触发计数窗口 Problem 我正在尝试创建一个用于转换和索引维基百科转储的管道目标是从压缩文件中读取只需一个进程并以流式传输方式因为该文件不适合 RAM 并行处理每个元素 ParDo

python3x Streaming ApacheBeam

在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException

我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中它执行 https 调用想想 REST API 在我的本地环境中所有这些都可以在 DirectRun 中正常运行这是我的本地环境 apache beam 2

Java SSL googlecloudplatform googleclouddataflow ApacheBeam

究竟是什么在管理光束中的水印？

Beam 的强大功能来自于它先进的窗口功能但它也有点令人困惑在本地测试中看到一些奇怪的情况我使用rabbitmq作为输入源其中消息并不总是得到ackd 并修复了不总是关闭的窗口我开始挖掘 StackOverflow 和 Beam

googleclouddataflow ApacheBeam

ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多

googleclouddataflow ApacheBeam

Apache Beam 中的异步 API 调用

正如标题所说我想使用 python 在 apache beam 中进行异步 API 调用目前我正在为 Pcollection 中的每个元素调用 DoFn 内的 API 自由度代码 class textapi call beam DoF

python pythonrequests pythonasyncio googleclouddataflow ApacheBeam

旁加载静态数据

在 ParDo 中处理数据时我需要使用存储在 Google Cloud Storage 上的 JSON 架构我想这可能是侧面加载我读了他们称之为文档的页面 https beam apache org releases pydoc 2

python3x googleclouddataflow ApacheBeam

如何从数据流中的PCollection读取bigQuery

我有一个从 pubsub 获得的对象 PCollection 比如说 PCollection

googlebigquery googleclouddataflow ApacheBeam

可以使用数据流将 pubsub 消息重复数据删除回 pubsub 吗？

我有一个将数据写入 Google Cloud pubsub 的应用程序根据 pubsub 的文档由于重试机制而导致的重复偶尔可能会发生还有消息乱序的问题这在 pubsub 中也得不到保证另外根据文档可以使用 Google Cl

MessageQueue googleclouddataflow ApacheBeam googlecloudpubsub

apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用

我有一个数据流作业我将首先从 bigquery 查询中读取在标准 sql 中它在直接运行模式下完美运行但是我尝试在数据流运行程序模式下运行此数据流并遇到此错误响应 content 显然 use standard sql 参数在数

googlebigquery googleclouddataflow ApacheBeam dataflow

是否可以使用 Apache Beam / Google Cloud Dataflow 从 Azure EventHub 主题进行消费？

Problem 我们希望使用 Google Cloud 中的数据流管道来使用 Azure 中的 EventHub 主题 Question 是否知道 KafkaIO 是否允许直接在 Apache Beam Google Cloud 数据流作业

使用 Apache Beam 查找 2 个列表的笛卡尔积

我有2个PCollections PCollection

Java list Collections ApacheBeam cartesianproduct

在 Dataflow Python flex 模板中包含另一个文件 ImportError

是否有一个包含多个文件的 Python Dataflow Flex 模板示例其中脚本导入同一文件夹中包含的其他文件我的项目结构是这样的 pipeline init py main py setup py custom py 我正在尝试将

python googlecloudplatform googleclouddataflow ApacheBeam

数据流中的值错误：GCS 位置无效：无

我正在尝试从 GCS 存储桶加载数据并将内容发布到 pubsub 和 bigquery 这些是我的管道选项 options PipelineOptions project project temp location gs dataflow

在 DataFlow 管道中，按键分组后的简单计数步骤非常慢

我有一个 DataFlow 管道尝试构建索引键值对并计算一些指标例如每个键的值数量输入数据总计约 60 GB 存储在 GCS 上管道分配了约 126 个工作线程根据 Stackdriver 所有工作线程的 CPU 利用率约为 6

googleclouddataflow ApacheBeam

Python Apache Beam 多重输出和处理

I am trying to run a job on Google Dataflow with the following process flow 本质上采用单个数据源根据字典中的某些值进行过滤并为每个过滤条件创建单独的输出我编写

python ApacheBeam

数据流/apache beam 窗口中字节数的触发窗口

我有一个简单的工作将数据从 pub sub 移动到 gcs pub sub 主题是一个共享主题具有许多不同大小的不同消息类型我希望结果在 GCS 中相应地垂直分区架构版本年月日该父键下应该是当天的一组文件并且文件的大小应

scala googleclouddataflow ApacheBeam spotifyscio

优化内存密集型数据流管道的 GCP 成本

我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 Python SDK 的成本我们构建了一个内存密集型 Apache Beam 管道每个执行器上运行需要大约 8 5 GB RAM 当前正在加载一个大型机

googlecloudplatform googleclouddataflow ApacheBeam

Google Cloud Dataflow：通过命令行参数指定 TempLocation

我尝试通过将其作为命令行中的选项传递来指定我的 GCS 临时位置如下所示 java jar pipeline 0 0 1 SNAPSHOT jar runner DataflowRunner project

googlecloudplatform googlecloudstorage googleclouddataflow ApacheBeam

Apache Beam - Bigquery 流插入显示 RuntimeException：ManagedChannel 分配站点

我正在 Google Dataflow 中运行流式 Apache Beam 管道它从 Kafka 读取数据并将数据流式插入到 Bigquery 但在 bigquery 流插入步骤中它抛出了大量警告 java lang RuntimeEx

googlebigquery googleclouddataflow ApacheBeam